2

我需要将 MSWord 文件转换为 XML 或 HTML,同时保留文件的结构(主要是表格)。我碰巧找到了 tika,它在从 MSword 文件(以及任何文件)中提取文本方面非常强大,如下所示:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

我可以从选项中选择将输出保存到 html/XML 中,如下所示:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

但输出基本上就像是用 HTML 编写的纯文本,因此无法获取表格结构和其他文档元素。

在 Perl 或 Python 中是否有任何 Tika 实现,可以在维护其元素结构的同时将文档转换为 XML/HTML?或者linux上有没有其他工具可以做到这一点?

4

1 回答 1

1

安装 OpenOffice SDK,它为各种文档(包括转换)提供了强大的 API。

http://www.oooforum.org/forum/viewtopic.phtml?t=7242

于 2013-04-09T23:29:36.537 回答