我有一个带有单页和图像的pdf。我想使用 pikepdf 库提取图像。
我已按照此处的说明进行操作,但显然我的图像是由多个图像划分/组成的,我不知道,因为当我运行时:
from pikepdf import open as pike_open
from pikepdf import PdfImage
pdf = open('some_file.pdf')
page = pdf.pages[0]
list(page.images.keys())
我得到:
['/Im11',
'/Im12',
'/Im13',
'/Im14',
'/Im15',
'/Im16',
'/Im17',
'/Im18',
'/Im5',
'/Im7',
'/Im9']
如果我继续:
rawimage = page.images['/Im11']
pdf_image = PdfImage(rawimage)
pdf_image.extract_to('image')
我得到一个 image.jpg 文件,其中仅包含 pdf 中原始图像的上部分。如何提取整个图像?