pdf - 从pdf中提取段落

Question

我正在对 pdf 电子书进行主题建模，需要逐段提取文本。为此，我使用 apache pdfBox，它可以有效地从 pdf 中提取文本。

PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);

但我不能单独提取段落。此工具提供了一种设置段落开始/结束标识符的方法，但我需要知道为此的段落分隔符标识符。

有没有办法做到这一点，或者是否有其他可用的工具可以有效地进行段落提取？

score 1 · Accepted Answer

PdfNitro 是我找到的用于提取段落的最佳工具。

这个工具的唯一问题是它将分页符视为段落中断，否则它工作得很好。该工具有 14 天试用版可供测试。

1 回答 1