有谁知道我可以从pdf文件中提取所有jpg图像的方法?我目前正在使用 Acrobat,并且我有一个包含大约 1500 张照片的文件,我需要提取这些照片,但一次提取一张会非常耗时。有任何想法吗?
谢谢。
有谁知道我可以从pdf文件中提取所有jpg图像的方法?我目前正在使用 Acrobat,并且我有一个包含大约 1500 张照片的文件,我需要提取这些照片,但一次提取一张会非常耗时。有任何想法吗?
谢谢。
只是做了一点搜索,我发现了这个,我希望它有帮助......我想不出任何理由在 pdf 中有 1500 张图像。
有免费的实用程序可以帮助您做到这一点。例如,一个快速的谷歌搜索出现了这个。
在 Mac 上尝试应用FileJuicer - 这通常非常适合从 PDF 中提取图像
编码答案(需要 tesseract(免费软件))。我不确定我实际为那段代码使用了哪些包,一些包用于同一代码块中的其他功能。
from PIL import Image
import pytesseract
import cv2
import os
import subprocess
#Strip images and put them in the relevant directory
def image_exporter(pdf_path, output_dir):
if not os.path.exists(output_dir):
os.makedirs(output_dir)
cmd = ['pdfimages', '-all', pdf_path,
'{}/prefix'.format(output_dir)]
subprocess.call(cmd)
print('Images extracted:')
print(os.listdir(output_dir))