我试图使用 PyMuPDF (fitz) 从 pdf 中提取图像。我的 pdf 在一个页面中有多个图像。我在保存图像时保持正确的序列号。我看到被提取的图像没有遵循正确的顺序。有时它从底部开始提取,有时从顶部开始等等。有没有办法修改我的代码,以便提取遵循正确的顺序?下面给出的是我正在使用的代码:
import fitz
from PIL import Image
filename = "document.pdf"
doc = fitz.open(filename)
for i in range(len(doc)):
img_num = 0
p_no = 1
for img in doc.getPageImageList(i):
xref = img[0]
pix = fitz.Pixmap(doc, xref)
if pix.n - pix.alpha < 4:
img_num += 1
pix.writeImage("%s-%s.jpg" % (str(p_no),str(img_num)))
else:
img_num += 1
pix1 = fitz.Pixmap(fitz.csRGB, pix)
pix1.writeImage("%s-%s.jpg" % (str(p_no),str(img_num)))
pix1 = None
pix = None
p_no += 1
下面给出的是pdf的示例页面