3

我需要从几个文件中提取原始文本,其中一些是 PDF,其中一些是 DOC 文件格式。

我必须使用 Apache POI 来执行此操作。现在,我找到了很多关于处理 word 文件(提取和写入等)的文档,但我找不到任何关于从 PDF 中提取的文档。

我认为 Apache POI 具有这种能力是错误​​的吗?

如果是这样,任何人都可以推荐允许从多种文件格式中提取文本的类似 Java 程序吗?

如果没有,任何人都可以指出我应该查看的文档和/或类/方法吗?

预先感谢您的任何帮助。

4

1 回答 1

4

是的,您认为 POI 会这样做是错误的。Apache POI适用于 Microsoft Office 文件格式,而 PDF 不适用。

您要么想要直接使用Apache PDFBox,要么想要使用 Apache Tika,它可以同时处理 Microsoft Office 和 PDF 文件格式(以及许多其他格式)。

于 2013-06-04T10:19:08.223 回答