0

我有一个 pdf 列表,我需要从中提取某些文本。我编写脚本就是为了做到这一点,它对大多数 PDF 文件都很有效,但对于其中一些文件,当我使用 extract_text() 时,我一直得到“无”的值。在做了一些挖掘之后,我发现那些不起作用的文件是其中没有任何嵌入字体的文件。

我一直在网上搜索如何解决这个问题,但找不到任何东西。有没有办法使用 pdfplumber 从没有嵌入字体的 PDF 中提取文本?如果没有,您是否知道我可以在不使用 OCR 的情况下提取此文本?

谢谢大家!

4

0 回答 0