python - 如何在 Python 3 中安装 textract？

Question

我想从pdf中提取但pypdf2没有提取所有信息并且textract由于以下错误而无法在3.7中安装：

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to <undefined>

score 1 · Accepted Answer

希望这对你有用:)

score 0 · Accepted Answer

我已textract通过以下步骤在 Windows 10 上安装：-

pip install textract
安装波普勒：
- 下载存档 - http://blog.alivate.com.au/wp-content/uploads/2018/10/poppler-0.68.0_x86.7z
- 提取它
- 将完整的文件夹粘贴到C:\Program Files
- 添加C:\Program Files\poppler-0.68.0\bin到路径变量
安装完成
测试 -import textract
textract.process('path_to_file_with_extension')

如需进一步参考，您可以点击这里

希望对您有所帮助！

2 回答 2