我对PDFBox API感到沮丧。
我已经做好了:
PDDocument pdfDocument = PDDocument.load(new File("text.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
String s = stripper.getText(pdfDocument);
pdfDocument.close();
但我得到了一个
Exception in thread "main" java.lang.NullPointerException
at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:194)
at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:182)
at org.pdfbox.pdmodel.PDDocumentCatalog.getAllPages(PDDocumentCatalog.java:226)
at org.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:216)
at org.pdfbox.util.PDFTextStripper.getText(PDFTextStripper.java:149)
at lucene.test.main(test.java:47)
在
String s = stripper.getText(pdfDocument);
我完全不知道为什么。使用本教程创建 PDF 效果很好 ( http://pdfbox.apache.org/cookbook/textextraction.html )。但是这个文本提取没有。已经搜索了很多,但没有任何帮助。
顺便说一句,我仍然使用“ pdfbox-0.7.3.jar ”,因为新的“ pdfbox-1.8.2.jar ”对我不起作用。这可能是原因吗?
谢谢帮助。
PS:使用“stripper.writeText()”时我遇到了同样的错误