我正在寻找一种编程解决方案来查找所有包含至少一个图像的页面(例如它们的页码)。我不需要图像本身,我只需要页码。首选 shell 脚本解决方案或 python 解决方案,但有助于完成此任务的一切都可以。
背景:我正在对 PDF 进行 OCR,我需要知道在哪些页面上运行 OCR 是有意义的。
一种解决方案是使用软件包中pdfimages
的实用程序。poppler-utils
它可以输出一些关于存储在 pdf 中的图像的信息:
$ pdfimages -list file.pdf
page num type width height color comp bpc enc interp object ID
---------------------------------------------------------------------
1 0 image 200 197 rgb 3 8 jpeg no 7 0
页码是一个(从 1 开始计数),identify
(从ImageMagik
包中)可以显示所有页码:
$ identify -format '%p ' file
0 1 2 3
从这两个命令可以看出,第 2、3、4 页不包含图像,而第 1 页包含图像。