0

我正在使用 iText 将文本从 PDF 提取到字符串,但我遇到了一些 PDF 的问题。当我尝试提取文本时,阅读器仅提取某些 pdf 上的空白/损坏的文本。

被破坏的文本示例:

“对于提取文本的测试时间已经很长了”

这个问题的原因是什么?

我正在考虑删除字体并将字体更改为适合读者阅读的字体。我曾尝试对此进行研究,但我发现的内容对我没有帮助。

4

1 回答 1

0

这是由文本在 PDF 文件中的存储方式引起的。它只是放置带有渲染和位置信息的字母。文本提取算法很聪明,因为它可以找到看起来很接近的字母,如果是的话,它将它们放在一起。如果它们不是那么接近,它会放置一些空间。

不过,我不能告诉你该怎么做。

于 2013-01-23T22:51:12.227 回答