5

我需要从 Java 中读取包含文本和图像的 Word .doc 文件。我需要识别图像和文本并将它们分成 2 个文件。

我最近听说过“Apache POI”。如何使用 Apache POI 读取 Word .doc 文件?

4

2 回答 2

13

apache 网站上的示例和示例代码非常好。我建议你从那里开始。

http://poi.apache.org/hwpf/quick-guide.html

要获取特定的文本位,首先创建一个 org.apache.poi.hwpf.HWPFDocument。使用 getRange() 获取范围,然后从中获取段落。然后,您可以获得文本和其他属性。

这里以提取图像为例。 是撰写本文时的最新版本。

当然,Javadocs

请注意,根据 POI 网站,

HWPF 仍处于早期开发阶段。

于 2009-02-28T06:07:22.760 回答
1

它不是免费的(甚至不是便宜的!),但Aspose.Words应该能够做到这一点。他们的评估下载将让您玩小文件。

目标文件是否也必须是 Docs?您可以在 Office 中打开文档并将它们保存为 HTML。然后分离变得微不足道。RTF 也是一个可行的选择,但我不推荐一个好的 RTF 解析器。

编辑说:我只记得另一个可能的解决方案:Jacob,但您需要在同一台机器上运行的 Office 实例。它是 Java COM Bridge 的缩写,它允许您调用 Office 中的 COM 库来操作文档。我相信它并不像听起来那么可怕!

于 2009-02-28T07:34:22.830 回答