image - 从 PDF 中提取具有坐标和大小的图像和文字

Question

我已经阅读了很多关于 PDF 提取和库（如 iText）的内容，但我还没有找到从 PDF 中提取图像和文本（带坐标）的解决方案。

任务是扫描带有产品目录的 PDF 并提取每个图像。每个图像旁边都印有一个图像代码，以及图像上显示的产品的产品代码列表。

我知道没有办法从这样的 PDF 中提取结构化信息，但是使用所有图像和文本对象的坐标，我可以编写代码来通过与图像的距离来识别链接文本。然后我可以使用 RegExp 拆分文本并找出什么是产品代码、什么是图像代码等。

你能为这项任务推荐一个好的和有效的解决方案吗？

score 4 · Accepted Answer

它可以提取PDF中带有坐标（pdftotext -bbox [sourcefile] [outputfile]）的所有字符以及PDF中的所有图像和SVG。

它是开源的 (GPLv2) 并且还支持许多额外的提取功能。

score 0 · Accepted Answer

如果您可以选择商业图书馆，您可以尝试Amyuni PDF Creator .Net或Amyuni PDF Creator ActiveX。您可以使用IacDocument.GetObjectsInRectangle方法来检索您感兴趣的所有“图形对象”，然后使用ObjectType属性将图像与文本分开。该库已经提供了一种将紧密文本放在一起的算法。从文档中：

IacDocument.GetObjectsInRectangle Method

The GetObjectsInRectangle method gets all the objects that are in the specified rectangle.

通常的免责声明适用。

score 0 · Accepted Answer

0

几个 Java 库可以做到这一点。你看过 JPedal 或 PdfBox 吗？

于 2011-11-23T14:24:23.360 回答

3 回答 3