java - 带有字体和样式的 iText PDF 文本提取

Question

我正在使用 iText 将文本从 PDF 提取到字符串，但我遇到了一些 PDF 的问题。当我尝试提取文本时，阅读器仅提取某些 pdf 上的空白/损坏的文本。

被破坏的文本示例：

“对于提取文本的测试时间已经很长了”

这个问题的原因是什么？

我正在考虑删除字体并将字体更改为适合读者阅读的字体。我曾尝试对此进行研究，但我发现的内容对我没有帮助。

score 0 · Accepted Answer

这是由文本在 PDF 文件中的存储方式引起的。它只是放置带有渲染和位置信息的字母。文本提取算法很聪明，因为它可以找到看起来很接近的字母，如果是的话，它将它们放在一起。如果它们不是那么接近，它会放置一些空间。

不过，我不能告诉你该怎么做。

1 回答 1