pdf - 从pdf文件中提取照片

Question

有谁知道我可以从pdf文件中提取所有jpg图像的方法？我目前正在使用 Acrobat，并且我有一个包含大约 1500 张照片的文件，我需要提取这些照片，但一次提取一张会非常耗时。有任何想法吗？

谢谢。

score 1 · Accepted Answer

只是做了一点搜索，我发现了这个，我希望它有帮助......我想不出任何理由在 pdf 中有 1500 张图像。

http://pdf-image-extraction-wizard.lastdownload.com/

score 1 · Accepted Answer

有免费的实用程序可以帮助您做到这一点。例如，一个快速的谷歌搜索出现了这个。

score 0 · Accepted Answer

0

在 Mac 上尝试应用FileJuicer - 这通常非常适合从 PDF 中提取图像

于 2018-02-23T16:13:34.473 回答

score 0 · Accepted Answer

编码答案（需要 tesseract（免费软件））。我不确定我实际为那段代码使用了哪些包，一些包用于同一代码块中的其他功能。

from PIL import Image
import pytesseract
import cv2
import os
import subprocess

#Strip images and put them in the relevant directory
def image_exporter(pdf_path, output_dir):
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    cmd = ['pdfimages', '-all', pdf_path,
           '{}/prefix'.format(output_dir)]
    subprocess.call(cmd)
    print('Images extracted:')
    print(os.listdir(output_dir))

pdf - 从pdf文件中提取照片

4 回答 4

Related

Reference