1

我想阅读现有的 pdf 并提取文本和图形信息。在图形中,目前我只需要绘制的线条。阅读 PDF 文本的供应商组件有很多,但是否也有可以提供图形信息的供应商组件?虽然首选免费/开源,但我也可以接受商业的。

要求是:

对于 PDF 中的每一页:

  1. 阅读文本块

  2. 了解文本块(包含块的矩形)的画布坐标。请注意,对于具有较大字体大小的文本,矩形大小会发生变化。

  3. 行 - 需要为 pdf 页面中的每一行收集 (x1,y1,x2,y2)

谢谢, - 寻求者

4

1 回答 1

0

这是我的领域,虽然这个问题有点老了。希望这仍然有帮助。

你留了一些假设的空间,所以这是我的:

  • 您寻求脚本,而不是独立软件
  • 你的对象是档案

    1. 您正在运行命令行脚本:使用此命令行脚本,详细信息位于:http ://stefaanlippens.net/extract-images-from-pdf-documents

    2. 您正在使用 imagemagick 或 graphicsmagick 函数运行服务器端代码:诸如“convert -background white -flatten test1.pdf test1.jpg”(imagemagick)之类的东西会将整个 PDF 页面呈现为 jpeg。如果您想将其裁剪为图像,则取决于项目的上下文来确定执行此操作的最佳脚本。

一个相当复杂的问题。如果您想提供有关该项目的更多详细信息,那么我可以提供更多指导。祝你好运。

于 2014-05-21T16:33:55.450 回答