我需要从 Java 中读取包含文本和图像的 Word .doc 文件。我需要识别图像和文本并将它们分成 2 个文件。
我最近听说过“Apache POI”。如何使用 Apache POI 读取 Word .doc 文件?
我需要从 Java 中读取包含文本和图像的 Word .doc 文件。我需要识别图像和文本并将它们分成 2 个文件。
我最近听说过“Apache POI”。如何使用 Apache POI 读取 Word .doc 文件?
apache 网站上的示例和示例代码非常好。我建议你从那里开始。
http://poi.apache.org/hwpf/quick-guide.html
要获取特定的文本位,首先创建一个 org.apache.poi.hwpf.HWPFDocument。使用 getRange() 获取范围,然后从中获取段落。然后,您可以获得文本和其他属性。
当然,Javadocs
请注意,根据 POI 网站,
HWPF 仍处于早期开发阶段。
它不是免费的(甚至不是便宜的!),但Aspose.Words应该能够做到这一点。他们的评估下载将让您玩小文件。
目标文件是否也必须是 Docs?您可以在 Office 中打开文档并将它们保存为 HTML。然后分离变得微不足道。RTF 也是一个可行的选择,但我不推荐一个好的 RTF 解析器。
编辑说:我只记得另一个可能的解决方案:Jacob,但您需要在同一台机器上运行的 Office 实例。它是 Java COM Bridge 的缩写,它允许您调用 Office 中的 COM 库来操作文档。我相信它并不像听起来那么可怕!