我有一些 PDF 电子表格,并希望从每个电子表格中提取数据并将其存储在类似于 2d 字符串列表的东西中;本质上是以我可以在我的代码中索引和使用的对象的形式从 PDF 重新创建表格/电子表格。PDFMiner 是实现此类目标的最佳选择吗?如果可以以某种方式基于单元格而不是寻找空格来完成从表格/电子表格中的提取,那就太好了,因为表格经常在不同位置有空单元格。
问问题
426 次
1 回答
3
首先是简单的部分:是的,PDFMiner可能是您最好的选择 :-)
上一句中的“大概”应该给你一个提示……PDF提取可以是一种黑魔法;一切都取决于源 PDF 的格式/可预测性如何。
如果幸运的话,最快的解决方案可能是使用已建立的工具将 PDF 转换为可以轻松解析的其他格式(想到 HTML),然后从那里提取表格。事实上,这正是pdftable所做的......
有时这可能不起作用,您需要使用页面中的视觉线索来划分表格单元格。在这种情况下,pdfminer就派上用场了。它可以告诉您所有文本的位置,并具有诸如 PostScript 渲染器之类的东西来“绘制”其他提取工具无法看到的线条。这篇博文解释了你可以如何去做。
于 2013-07-18T17:24:02.383 回答