python - Python PDF 文本提取 - 无法使用 pdfminer/textract 从特定文档中提取

Question

我正在使用 Python 做一个项目，该项目涉及从许多 PDF 文档中提取文本，有趣的是，我遇到了一个无法被这些项目中的任何一个解析的文档：

事实上，即使是命令行工具pdftotext也无法从文档中提取文本。它首先打印文本，然后在提取大约 2 分钟后继续打印垃圾。

我对以下两种解决方案之一感兴趣：

这些解决方案中的任何一个都是理想的，所以提前致谢！

score 0 · Accepted Answer

我在 win10 下使用 Jupyter 和 Python 3.6。在这种情况下，我必须使用pdfminer.six。

这些天我不得不重新安装。这仍然对我有用

1 回答 1