我正在使用此 SO 答案中提供的代码片段,使用PDFMiner Python 库将 PDF 文件转换为文本。问题是 PDF 是三列格式,我需要阅读每一行。但是,我得到的文本是无序的:有时混合第一列和第二列,有时混合第三列......由于文本不遵循任何逻辑顺序,我无法解析每一行。那么,有没有办法使用 PDFMiner 获取 PDF 文件的每一行?
编辑:
PDFMiner 带有一个命令行工具,pdf2txt.py
用于将 PDF 转换为文本。使用它并设置0.05
为字边距,我可以获得更好的格式化文本,但无法达到目标。