4

我想在 windows8 上的 slate 包的帮助下使用 python 3.5.0 从 Pdf 文件中提取文本。

问题:虽然我已经成功安装了 slate 包,但当我尝试导入 slate 时仍然存在某些错误。请提出我所缺少的。

错误:

回溯(最近一次调用):文件“”,第 1 行,在导入 slate 文件“C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site-packages\slate-0.4.1 -py3.5.egg\slate__init__.py",第 66 行,从 slate 导入 PDF

ImportError:无法导入名称“PDF”

4

3 回答 3

3

您可以从poppler库中尝试pdftotextwindows 版本)。

作为一个独立的程序,它不需要 Python。但我经常从 Python 中将它用作子进程,如下所示:

import subprocess

args = ['pdftotext', '-layout', '-q', 'input.pdf', '-']
txt = subprocess.check_output(args, universal_newlines=True)
于 2015-12-28T20:44:43.973 回答
2

slate 依赖于 PDFMiner(不支持 Python 3。)

您可以尝试使用以下方式安装它:

pip install PDFMiner

我安装了 pdfminer3k - pypi - 但它并没有很好地响应(而且文档也不好)所以我看了更多并找到了这个页面以寻找可能的替代方案。让我知道这些是否满足。

于 2015-12-28T20:35:01.197 回答
2

你可以安装 pdfminer.six

pip install pdfminer.six

https://pypi.python.org/pypi/pdfminer.six/20160614

于 2017-02-16T10:52:29.357 回答