1

我正在寻找一种编程解决方案来查找所有包含至少一个图像的页面(例如它们的页码)。我不需要图像本身,我只需要页码。首选 shell 脚本解决方案或 python 解决方案,但有助于完成此任务的一切都可以。

背景:我正在对 PDF 进行 OCR,我需要知道在哪些页面上运行 OCR 是有意义的。

4

1 回答 1

1

一种解决方案是使用软件包中pdfimages的实用程序。poppler-utils它可以输出一些关于存储在 pdf 中的图像的信息:

$ pdfimages -list file.pdf
page   num  type   width height color comp bpc  enc interp  object ID
---------------------------------------------------------------------
   1     0 image     200   197  rgb     3   8  jpeg   no         7  0

页码是一个(从 1 开始计数),identify(从ImageMagik包中)可以显示所有页码:

$ identify -format '%p ' file
0 1 2 3

从这两个命令可以看出,第 2、3、4 页不包含图像,而第 1 页包含图像。

于 2013-02-20T10:08:32.760 回答