我有一个包含 2 页的 PDF 文件。当我用我的解析器解析它时,在 Ojective-C 中,我有以下情况。
对于第一页,一切都很好,我有我应该有的文本(我在预览、Adobe 阅读器等 pdf 阅读器中直观地看到......)。对于第二页,我有我在第二页中看到的文本加上第一页中的部分文本,这不在第二页中。
我尝试使用其他解析器:pdftotext (xpdf) 他们设法得到了正确的结果。Pdfminer (in python) https://pypi.python.org/pypi/pdfminer/,我得到了和我一样的结果。第一页的部分文本被提取两次。
我的问题是:这怎么会发生?你见过这种情况吗?如果文本确实出现在第二页中,为什么 pdf 阅读器不显示呢?你对此有什么想法吗?