我需要将 MSWord 文件转换为 XML 或 HTML,同时保留文件的结构(主要是表格)。我碰巧找到了 tika,它在从 MSword 文件(以及任何文件)中提取文本方面非常强大,如下所示:
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
我可以从选项中选择将输出保存到 html/XML 中,如下所示:
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html
但输出基本上就像是用 HTML 编写的纯文本,因此无法获取表格结构和其他文档元素。
在 Perl 或 Python 中是否有任何 Tika 实现,可以在维护其元素结构的同时将文档转换为 XML/HTML?或者linux上有没有其他工具可以做到这一点?