2

我能够安装pdftotext实用程序(我猜是 Linux 附带的)将 PDF 转换为文本,并在 Mac 上提取图像:

# install poppler, xpdf, and imagemagick
brew install imagemagick
brew install poppler # not sure if this worked, had to install `xpdf` from online .dmg
pdftotext sample.pdf output.txt
pdfimages sample.pdf pdf-images
# then convert .ppm to .jpg
# one at a time:
# convert pdf-images-001.ppm pdf-images-001.jpg
# batch:
mogrify -format jpg *.ppm

所以现在我有一个来自 PDF 的(令人印象深刻的格式良好的)文本,以及我必须使用 ImageMagickoutput.txt转换的一堆图像。.ppm.jpg

问题是,现在有什么方法可以在output.txt文档的正确位置插入对这些图像的引用?或者,有没有办法将这两个命令结合起来,以便同时提取文本和图像并在文本中创建指向图像的链接?想知道我是否必须自己手动编写解析代码才能将图像插入到文本中。

4

0 回答 0