1

我正在使用 PDFBox 将 pdf 文件转换为 txt 文件。我正在从 PDF 文件中获取文本。

try {
            parser.parse();
            cosDoc = parser.getDocument();
            pdfStripper = new PDFTextStripper();
            pdDoc = new PDDocument(cosDoc);
            parsedText = pdfStripper.getText(pdDoc);
            writePDFFileToTextFile(parsedText, textFilePath);
        } catch (Exception e) {
            //System.out.println("An exception occured in parsing the PDF Document.");
            log.error(e.toString());
            textFilePath = null;
        } finally {
            try {
                if (cosDoc != null) {
                    cosDoc.close();
                }
                if (pdDoc != null) {
                    pdDoc.close();
                }
            } catch (Exception ex) {
                log.error(ex.toString());
            }
        }

但我也想格式化相关信息,如粗体、斜体、字体大小、段落等。

我可以使用 PDFBox 获取这些信息吗?如果不是..那么我应该使用哪个 API?

4

0 回答 0