我已经阅读了很多关于 PDF 提取和库(如 iText)的内容,但我还没有找到从 PDF 中提取图像和文本(带坐标)的解决方案。
任务是扫描带有产品目录的 PDF 并提取每个图像。每个图像旁边都印有一个图像代码,以及图像上显示的产品的产品代码列表。
我知道没有办法从这样的 PDF 中提取结构化信息,但是使用所有图像和文本对象的坐标,我可以编写代码来通过与图像的距离来识别链接文本。然后我可以使用 RegExp 拆分文本并找出什么是产品代码、什么是图像代码等。
你能为这项任务推荐一个好的和有效的解决方案吗?