我想从pdf中提取但pypdf2
没有提取所有信息并且textract
由于以下错误而无法在3.7中安装:
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to <undefined>
我想从pdf中提取但pypdf2
没有提取所有信息并且textract
由于以下错误而无法在3.7中安装:
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to <undefined>
从以下位置下载源文件textract
:https ://pypi.python.org/pypi/textract
pip3 install pdfminer3k
untar
下载的文件
cd
进入目录
跑:python3 setup.py install
希望这对你有用:)
我已textract
通过以下步骤在 Windows 10 上安装:-
pip install textract
C:\Program Files
C:\Program Files\poppler-0.68.0\bin
到路径变量import textract
textract.process('path_to_file_with_extension')
如需进一步参考,您可以点击这里
希望对您有所帮助!