2

我正在尝试从 python(.pdf .doc .docx) 中不同类型的文件中提取信息并转换为 .txt,但是在处理不同的文件时,我会在不需要时获得空格和换行符以及许多其他问题。我已经尝试过 PyPDF2 和 PDF 管理器。请向我推荐一些可以从文件中提取信息的东西。

编辑

目前正在寻找可以帮助我从 .pdf 文件中提取确切文本的东西。我已经尝试过 PyPDF、PDFMiner 和 PDF Manager,但我都遇到了一些 pdf 的问题。

4

1 回答 1

2

我个人认为pdfminer是从 pdf 中提取信息的最佳 python 模块在此处获取

我认为您可以参考 此链接 以获取相应的文件格式。

于 2017-05-25T11:22:11.313 回答