8

我已经阅读了很多关于 PDF 提取和库(如 iText)的内容,但我还没有找到从 PDF 中提取图像和文本(带坐标)的解决方案。

任务是扫描带有产品目录的 PDF 并提取每个图像。每个图像旁边都印有一个图像代码,以及图像上显示的产品的产品代码列表。

我知道没有办法从这样的 PDF 中提取结构化信息,但是使用所有图像和文本对象的坐标,我可以编写代码来通过与图像的距离来识别链接文本。然后我可以使用 RegExp 拆分文本并找出什么是产品代码、什么是图像代码等。

你能为这项任务推荐一个好的和有效的解决方案吗?

4

3 回答 3

4

使用 XPDF ( http://www.foolabs.com/xpdf/ )

它可以提取PDF中带有坐标(pdftotext -bbox [sourcefile] [outputfile])的所有字符以及PDF中的所有图像和SVG。

它是开源的 (GPLv2) 并且还支持许多额外的提取功能。

于 2015-01-23T10:28:40.020 回答
0

如果您可以选择商业图书馆,您可以尝试Amyuni PDF Creator .NetAmyuni PDF Creator ActiveX。您可以使用IacDocument.GetObjectsInRectangle方法来检索您感兴趣的所有“图形对象”,然后使用ObjectType属性将图像与文本分开。该库已经提供了一种将紧密文本放在一起的算法。从文档中:

IacDocument.GetObjectsInRectangle Method

The GetObjectsInRectangle method gets all the objects that are in the specified rectangle.

通常的免责声明适用。

于 2011-11-23T20:12:01.213 回答
0

几个 Java 库可以做到这一点。你看过 JPedal 或 PdfBox 吗?

于 2011-11-23T14:24:23.360 回答