我试图从我认为格式不正确的 PDF 中提取表格。这些 PDF 中的表格具有表格格式,但没有用垂直边框正确括起来。我将附上示例 pdf 并与两个库一起输出。当我尝试使用 tabula 进行表格检测时,pdf 中的所有页面上都会返回一个空白数据帧。
输入 0 表示单页,1 表示全部,2 表示特定页面:2 输入页码:25 在此页面上未按表格找到表格。
当我使用 camelot 时,我使用时同样没有响应flovor='lattice'
输入 0 表示单页,1 表示所有页面,2 表示表格中的页面由 tabula 检测,3 表示特定页面:3 输入 0 表示 lattice 或 1 表示流:0 输入页码:25 在此页面上没有找到表由 camelot .
当我使用时flovor='stream'
,我得到一个数据框,其中每一行都使用制表符分隔的数据逐行读取,但它也会在该数据框中包含普通文本。
输入 0 表示单页,输入 1 表示所有页面,输入 2 表示表格中的页面由 tabula 检测,3 表示特定页面:3 输入 0 表示 lattice 或 1 表示流:1 输入页码:25
如果不存在垂直封闭表格行,我只需要一种有效的方法来检测表格并提取相同的数据。如果表格是由垂直和水平线包围的正确格式,那么 tabula 和 camelot 库都可以正常工作。