我正在使用 Python 做一个项目,该项目涉及从许多 PDF 文档中提取文本,有趣的是,我遇到了一个无法被这些项目中的任何一个解析的文档:
https://github.com/euske/pdfminer/
https://github.com/deanmalmgren/textract
事实上,即使是命令行工具pdftotext
也无法从文档中提取文本。它首先打印文本,然后在提取大约 2 分钟后继续打印垃圾。
我对以下两种解决方案之一感兴趣:
- 我怎样才能实现在 Python 中从该文档中提取文本的目标?
- 一般来说,我怎样才能检测到这样的文档,所以我可以避免尝试完全解析它们?
这些解决方案中的任何一个都是理想的,所以提前致谢!