python - 为什么 pdfplumber 不产生任何数据？

翻译自：https://stackoverflow.com/questions/68443031 2021-07-19T15:20:15.270

178 次

我通常使用pdfplumber从 pdf中抓取数据和文本，并且 99.99% 的时间，一切都很好。

虽然今天，我遇到了一种情况，我可以打开pdf 文件（使用 pdfplumber.open），但不能提取任何文本/单词/表格。我知道打开是成功的，因为它可以识别 pdf 包含的正确页数，但是使用任何方法获取数据都会导致得到一个空列表。pdf文件没有任何保护。

.pdf 文件不是扫描文件。看起来它们是使用XML 源文件生成的，但我不知道它是否会产生任何影响，因为它也会生成.pdf文件。
我还尝试了其他几个导致相同结果的 pdf 刮刀。

一个有趣的事实是，在使用在线工具进行修复后（老实说，我真的不知道它对文件做了什么），我设法打开并从中提取了我想要的所有文本。当我将 .pdf 转换为.pdf/a文件时，也发生了同样的事情。

有谁知道解决这个问题的方法，甚至是什么原因造成的？

请注意，我不能分享 pdf 文件，因为它们是机密文件，也不能复制我不知道它是如何发生的情况。

谢谢你的帮助！

0 回答 0