3

我正在尝试从 pdf文档中提取表格

我尝试了 pdf -> html -> 提取表的路线。我上面提到的pdf转换为html时会产生垃圾,可能是因为字体的原因,文档不是英文的。

使用 x 和 y 坐标提取 pdf 不是一个选项,因为此解决方案需要适用于来自上述 url 的未来 pdf,它将具有表格但并不总是在相同的位置。

请帮忙,

提前致谢。

4

3 回答 3

5

PDF 不包含明确的表格数据。它只包含我们倾向于将其解释为表格的行和字符字形。因此,您的任务涉及将我们的人类表格识别功能放入代码中,这是一项艰巨的任务。

一般来说,如果您确信未来的 PDF 将由相同的软件以非常相似的方式生成,那么可能值得花时间研究该文件以获得一些易于遵循的提示来识别各个字段的内容。

但是,您的特定文档还有一个缺点:它不包含直接提取文本所需的信息!您可以尝试从 Adob​​e Reader 复制和粘贴,您将获得(至少我这样做)WinAnsi 范围内的半随机字符。

这是因为文档中的所有字体都声称它们使用 WinAnsiEncoding,即使以这种方式引用的字符最终不是来自 WinAnsi 字符选择。

因此,在没有 OCR 的情况下从您的文档中提取可靠的文本毕竟是不可能的!

(尝试从 Adob​​e Reader 复制粘贴一般是一个很好的第一个测试文本提取是否可行的方法;Reader 的文本提取方法已经开发了很多年,因此已经变得相当不错。如果您无法提取任何有意义的东西Acrobat Reader,文本提取确实是一项非常困难的任务。)

于 2013-07-11T13:11:16.040 回答
3

您可以使用 Tabula: http ://tabula.nerdpower.org 它是免费且易于使用的

于 2013-12-26T20:04:04.773 回答
0

一种选择是使用 pdf-table-extract:https ://github.com/ashima/pdf-table-extract 。

于 2015-01-11T05:06:35.057 回答