python - 将 PDF 电子表格数据提取到 Python 数据结构中

Question

我有一些 PDF 电子表格，并希望从每个电子表格中提取数据并将其存储在类似于 2d 字符串列表的东西中；本质上是以我可以在我的代码中索引和使用的对象的形式从 PDF 重新创建表格/电子表格。PDFMiner 是实现此类目标的最佳选择吗？如果可以以某种方式基于单元格而不是寻找空格来完成从表格/电子表格中的提取，那就太好了，因为表格经常在不同位置有空单元格。

score 3 · Accepted Answer

首先是简单的部分：是的，PDFMiner可能是您最好的选择 :-)

上一句中的“大概”应该给你一个提示……PDF提取可以是一种黑魔法；一切都取决于源 PDF 的格式/可预测性如何。

如果幸运的话，最快的解决方案可能是使用已建立的工具将 PDF 转换为可以轻松解析的其他格式（想到 HTML），然后从那里提取表格。事实上，这正是pdftable所做的......

有时这可能不起作用，您需要使用页面中的视觉线索来划分表格单元格。在这种情况下，pdfminer就派上用场了。它可以告诉您所有文本的位置，并具有诸如 PostScript 渲染器之类的东西来“绘制”其他提取工具无法看到的线条。这篇博文解释了你可以如何去做。

python - 将 PDF 电子表格数据提取到 Python 数据结构中

1 回答 1

Related

Reference