我想阅读现有的 pdf 并提取文本和图形信息。在图形中,目前我只需要绘制的线条。阅读 PDF 文本的供应商组件有很多,但是否也有可以提供图形信息的供应商组件?虽然首选免费/开源,但我也可以接受商业的。
要求是:
对于 PDF 中的每一页:
阅读文本块
了解文本块(包含块的矩形)的画布坐标。请注意,对于具有较大字体大小的文本,矩形大小会发生变化。
行 - 需要为 pdf 页面中的每一行收集 (x1,y1,x2,y2)
谢谢, - 寻求者
这是我的领域,虽然这个问题有点老了。希望这仍然有帮助。
你留了一些假设的空间,所以这是我的:
你的对象是档案
您正在运行命令行脚本:使用此命令行脚本,详细信息位于:http ://stefaanlippens.net/extract-images-from-pdf-documents
您正在使用 imagemagick 或 graphicsmagick 函数运行服务器端代码:诸如“convert -background white -flatten test1.pdf test1.jpg”(imagemagick)之类的东西会将整个 PDF 页面呈现为 jpeg。如果您想将其裁剪为图像,则取决于项目的上下文来确定执行此操作的最佳脚本。
一个相当复杂的问题。如果您想提供有关该项目的更多详细信息,那么我可以提供更多指导。祝你好运。