java - 使用 PDFBox 从 pdf 中读取文本

翻译自：https://stackoverflow.com/questions/14747267 2013-02-07T09:04:13.203

78 次

我听说 PDFBox 是从 pdf 中读取文本的最佳 Java 库。所以，我下载了pdfbox-1.7.1.jar, jempbox-1.7.1.jarand fontbox-1.7.1.jar（我不确定最后两个是否必要）。我将它们添加到我在 Netbeans 中的项目中。

当我尝试他们网站上的简单示例时：

Document luceneDocument = LucenePDFDocument.getDocument(something)

它不会起作用，因为org.apache.pdfbox.searchengine.lucene不存在。我也试过了pdfbox-1.4.0，结果是一样的。那么，我在哪里可以找到该类（是否需要任何其他我不知道的 jar？）或从 pdf 读取文本的其他方法？

编辑：我在这封旧邮件中发现了同样的问题；但是线程很旧，解决方法也不起作用。

0 回答 0