1

我想从pdf中提取但pypdf2没有提取所有信息并且textract由于以下错误而无法在3.7中安装:

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to <undefined>

4

2 回答 2

1
  1. 从以下位置下载源文件textracthttps ://pypi.python.org/pypi/textract

  2. pip3 install pdfminer3k

  3. untar下载的文件

  4. cd进入目录

  5. 跑:python3 setup.py install

希望这对你有用:)

于 2019-03-24T07:53:04.600 回答
0

我已textract通过以下步骤在 Windows 10 上安装:-

  1. pip install textract
  2. 安装波普勒
  3. 安装完成
  4. 测试 -import textract
  5. textract.process('path_to_file_with_extension')

如需进一步参考,您可以点击这里

希望对您有所帮助!

于 2019-11-15T10:14:45.507 回答