我正在使用 PDFBox 将 pdf 文件转换为 txt 文件。我正在从 PDF 文件中获取文本。
try {
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
parsedText = pdfStripper.getText(pdDoc);
writePDFFileToTextFile(parsedText, textFilePath);
} catch (Exception e) {
//System.out.println("An exception occured in parsing the PDF Document.");
log.error(e.toString());
textFilePath = null;
} finally {
try {
if (cosDoc != null) {
cosDoc.close();
}
if (pdDoc != null) {
pdDoc.close();
}
} catch (Exception ex) {
log.error(ex.toString());
}
}
但我也想格式化相关信息,如粗体、斜体、字体大小、段落等。
我可以使用 PDFBox 获取这些信息吗?如果不是..那么我应该使用哪个 API?