java - 如何将剥离的文本位置重新映射到 pdf 文档位置

翻译自：https://stackoverflow.com/questions/17699915 2013-07-17T12:35:13.853

267 次

我使用 pdfboxPDFTextStripper从两个 PDF 文件中提取纯文本，然后使用一些 NLP 算法进行比较。该算法返回纯文本常见段落的位置。

我想要做的是突出 PDF 中的常见段落。问题是我只有纯文本中的位置，而不是 PDF 中的相应位置。使用PDFTextStripper此映射会丢失。

是否有任何解决方案/常用方法来保留从纯文本位置到 PDF 文档位置的映射，同时从 PDF 中剥离文本？如果它支持这个，我也会接受使用不同的 PDF 库，但我必须使用 Java。

0 回答 0