-2

我正在使用 Python 做一个项目,该项目涉及从许多 PDF 文档中提取文本,有趣的是,我遇到了一个无法被这些项目中的任何一个解析的文档:

https://github.com/euske/pdfminer/

https://github.com/deanmalmgren/textract

事实上,即使是命令行工具pdftotext也无法从文档中提取文本。它首先打印文本,然后在提取大约 2 分钟后继续打印垃圾。

该文件可在此处找到:https ://www.aiaa.org/uploadedFiles/Events/Conferences/2013_Conferences/2013_-_GNC_Infotech/Promotional_Materials/GNC%202013%20Final%20Program.pdf

我对以下两种解决方案之一感兴趣:

  1. 我怎样才能实现在 Python 中从该文档中提取文本的目标?
  2. 一般来说,我怎样才能检测到这样的文档,所以我可以避免尝试完全解析它们?

这些解决方案中的任何一个都是理想的,所以提前致谢!

4

1 回答 1

0

我在 win10 下使用 Jupyter 和 Python 3.6。在这种情况下,我必须使用pdfminer.six

这些天我不得不重新安装。仍然对我有用

于 2018-03-27T04:14:28.977 回答