Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 iText 将文本从 PDF 提取到字符串,但我遇到了一些 PDF 的问题。当我尝试提取文本时,阅读器仅提取某些 pdf 上的空白/损坏的文本。
被破坏的文本示例:
“对于提取文本的测试时间已经很长了”
这个问题的原因是什么?
我正在考虑删除字体并将字体更改为适合读者阅读的字体。我曾尝试对此进行研究,但我发现的内容对我没有帮助。
这是由文本在 PDF 文件中的存储方式引起的。它只是放置带有渲染和位置信息的字母。文本提取算法很聪明,因为它可以找到看起来很接近的字母,如果是的话,它将它们放在一起。如果它们不是那么接近,它会放置一些空间。
不过,我不能告诉你该怎么做。