Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试从 python(.pdf .doc .docx) 中不同类型的文件中提取信息并转换为 .txt,但是在处理不同的文件时,我会在不需要时获得空格和换行符以及许多其他问题。我已经尝试过 PyPDF2 和 PDF 管理器。请向我推荐一些可以从文件中提取信息的东西。
编辑
目前正在寻找可以帮助我从 .pdf 文件中提取确切文本的东西。我已经尝试过 PyPDF、PDFMiner 和 PDF Manager,但我都遇到了一些 pdf 的问题。
我个人认为pdfminer是从 pdf 中提取信息的最佳 python 模块在此处获取
pdfminer
我认为您可以参考 此链接 以获取相应的文件格式。