我听说 PDFBox 是从 pdf 中读取文本的最佳 Java 库。所以,我下载了pdfbox-1.7.1.jar
, jempbox-1.7.1.jar
and fontbox-1.7.1.jar
(我不确定最后两个是否必要)。我将它们添加到我在 Netbeans 中的项目中。
当我尝试他们网站上的简单示例时:
Document luceneDocument = LucenePDFDocument.getDocument(something)
它不会起作用,因为org.apache.pdfbox.searchengine.lucene
不存在。我也试过了pdfbox-1.4.0
,结果是一样的。那么,我在哪里可以找到该类(是否需要任何其他我不知道的 jar?)或从 pdf 读取文本的其他方法?
编辑:我在这封旧邮件中发现了同样的问题;但是线程很旧,解决方法也不起作用。