java - 在 Linux 上将 MSword 转换为 XML/HTML

Question

我需要将 MSWord 文件转换为 XML 或 HTML，同时保留文件的结构（主要是表格）。我碰巧找到了 tika，它在从 MSword 文件（以及任何文件）中提取文本方面非常强大，如下所示：

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

我可以从选项中选择将输出保存到 html/XML 中，如下所示：

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

但输出基本上就像是用 HTML 编写的纯文本，因此无法获取表格结构和其他文档元素。

在 Perl 或 Python 中是否有任何 Tika 实现，可以在维护其元素结构的同时将文档转换为 XML/HTML？或者linux上有没有其他工具可以做到这一点？

score 1 · Accepted Answer

安装 OpenOffice SDK，它为各种文档（包括转换）提供了强大的 API。

1 回答 1