python-3.x - 使用 pikepdf 从 pdf 中提取图像

问问题 2021-04-27T08:25:22.083

168 次

我有一个带有单页和图像的pdf。我想使用 pikepdf 库提取图像。

我已按照此处的说明进行操作，但显然我的图像是由多个图像划分/组成的，我不知道，因为当我运行时：

from pikepdf import open as pike_open
from pikepdf import PdfImage

pdf = open('some_file.pdf')
page = pdf.pages[0]
list(page.images.keys())

我得到：

['/Im11',
 '/Im12',
 '/Im13',
 '/Im14',
 '/Im15',
 '/Im16',
 '/Im17',
 '/Im18',
 '/Im5',
 '/Im7',
 '/Im9']

如果我继续：

rawimage = page.images['/Im11']
pdf_image = PdfImage(rawimage)
pdf_image.extract_to('image')

我得到一个 image.jpg 文件，其中仅包含 pdf 中原始图像的上部分。如何提取整个图像？

0 回答 0