python - pdfplumber可以从没有嵌入字体的pdf中提取文本吗？

问问题 2022-02-17T20:35:26.670

29 次

我有一个 pdf 列表，我需要从中提取某些文本。我编写脚本就是为了做到这一点，它对大多数 PDF 文件都很有效，但对于其中一些文件，当我使用 extract_text() 时，我一直得到“无”的值。在做了一些挖掘之后，我发现那些不起作用的文件是其中没有任何嵌入字体的文件。

我一直在网上搜索如何解决这个问题，但找不到任何东西。有没有办法使用 pdfplumber 从没有嵌入字体的 PDF 中提取文本？如果没有，您是否知道我可以在不使用 OCR 的情况下提取此文本？

谢谢大家！

0 回答 0