python - PDFMiner - 获取文本行

Question

我正在使用此 SO 答案中提供的代码片段，使用PDFMiner Python 库将 PDF 文件转换为文本。问题是 PDF 是三列格式，我需要阅读每一行。但是，我得到的文本是无序的：有时混合第一列和第二列，有时混合第三列......由于文本不遵循任何逻辑顺序，我无法解析每一行。那么，有没有办法使用 PDFMiner 获取 PDF 文件的每一行？

编辑：

PDFMiner 带有一个命令行工具，pdf2txt.py用于将 PDF 转换为文本。使用它并设置0.05为字边距，我可以获得更好的格式化文本，但无法达到目标。

score 0 · Accepted Answer

解析表时我也有类似的情况*。对我有用的是提取 HTML。然后，您可以解析 HTML 表格并考虑表格标签（请参阅 HTMLParser 的 python 文档。）我只有表格要查找。

我的两分钱:)

*将单词中的表格复制到 QT TextEdit 小部件中。小部件接受富文本，但如果导出为文本，表格会被弄乱。导出为 HTML，解析 HTML，获取数据 :) 这样做是在工作中，这里没有代码。

python - PDFMiner - 获取文本行

1 回答 1

Related

Reference