0

我使用 pdfboxPDFTextStripper从两个 PDF 文件中提取纯文本,然后使用一些 NLP 算法进行比较。该算法返回纯文本常见段落的位置。

我想要做的是突出 PDF 中的常见段落。问题是我只有纯文本中的位置,而不是 PDF 中的相应位置。使用PDFTextStripper此映射会丢失。

是否有任何解决方案/常用方法来保留从纯文本位置到 PDF 文档位置的映射,同时从 PDF 中剥离文本?如果它支持这个,我也会接受使用不同的 PDF 库,但我必须使用 Java。

4

0 回答 0