我通常使用pdfplumber从 pdf中抓取数据和文本,并且 99.99% 的时间,一切都很好。
虽然今天,我遇到了一种情况,我可以打开pdf 文件(使用 pdfplumber.open),但不能提取任何文本/单词/表格。我知道打开是成功的,因为它可以识别 pdf 包含的正确页数,但是使用任何方法获取数据都会导致得到一个空列表。pdf文件没有任何保护。
.pdf 文件不是扫描文件。看起来它们是使用XML 源文件生成的,但我不知道它是否会产生任何影响,因为它也会生成.pdf文件。
我还尝试了其他几个导致相同结果的 pdf 刮刀。
一个有趣的事实是,在使用在线工具进行修复后(老实说,我真的不知道它对文件做了什么),我设法打开并从中提取了我想要的所有文本。当我将 .pdf 转换为.pdf/a文件时,也发生了同样的事情。
有谁知道解决这个问题的方法,甚至是什么原因造成的?
请注意,我不能分享 pdf 文件,因为它们是机密文件,也不能复制我不知道它是如何发生的情况。
谢谢你的帮助 !