我已经使用 获得了表格边界框的坐标Camelot
,但我需要使用它tabula-py
来提取表格数据,因为 camelot 仅提取每个表格单元格中的第一行,即使在格子模式下也是如此。我注意到,在 tabula-py 中定义相同的表格区域时,结果坐标中的 2 个与 camelot 值有很大不同(如下面的代码示例所示)。虽然 tabula 中的第 2 和第 4 值与 camelot 中的第 1 和第 3 值相似,但其他值有很大不同,请问如何从 camelot 值中翻译这些读数?我一直在尝试使用比例,并添加和减去值,但一切都是徒劳的......
df= tabula.read_pdf(pdf_path, lattice=True, area=(71, 627, 325, 1160), pages=page)