我正在开发一个需要读取 pdf 文件的 java 项目。
我知道可以使用一些外部库,例如itext。
但是是否可以在不使用任何外部库的情况下使用 java inbuild 功能读取 pdf 文件?
是的,有可能。用于从通过 Apache PDFBOX 的 java 读取 pdf 文件。此 PDFBOX 允许创建新的 PDF 文档、操作现有文档以及从文档中提取内容的能力。Apache PDFBox 还包括几个命令行实用程序。
您可以使用 Apache PDFBox 恢复 PDF 文件的文本。在maven项目pom.xml中,我们必须添加依赖
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.8</version>
</dependency>
编码:
try {
DLFileEntry fileEntry = DLFileEntryLocalServiceUtil.getFileEntry(folder.getGroupId(), folder.getFolderId(), fileName);
File file = DLFileEntryLocalServiceUtil.getFile(themeDisplay.getUserId(), fileEntry.getFileEntryId(), fileEntry.getVersion(), true);
PDDocument pddDocument=PDDocument.load(file);
PDFTextStripper textStripper = new PDFTextStripper();
String text = textStripper.getText(pddDocument);
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
要阅读/创建 PDF,请参阅文档: