我正在尝试使用图像的 BBox 坐标提取 PDF 中的图像。
我尝试使用 pdfrw 库,它正在识别图像对象,并且它有一个名为媒体框的属性,它有一些坐标,我不确定这些是否是正确的 bbox 坐标,因为对于某些 pdf,它显示类似 ['0', ' 0', '684', '864'] 但图像不是从页面的开头开始,所以我不认为它是 bbox
我尝试使用 pdfrw 使用以下代码
import pdfrw, os
from pdfrw import PdfReader, PdfWriter
from pdfrw.findobjs import page_per_xobj
outfn = 'extract.' + os.path.basename(path)
pages = list(page_per_xobj(PdfReader(path).pages, margin=0.5*72))
writer = PdfWriter(outfn)
writer.addpages(pages)
writer.write()
如何获取图像及其 bbox 坐标?
示例 pdf:https ://drive.google.com/open?id=1IVbj1b3JfmSv_BJvGUqYvAPVl3FwC2A-