我有以下格式的pdf
Lorem ipsum dolor sit amet, consectetur |Table 2 |
adipiscing elit. Praesent in tortor consequat, |+---------------------------------------------+|
rutrum dolor fringilla, gravida felis. || | | ||
Suspendisse quis condimentum diam, ut congue || | | ||
quam. |+---------------------------------------------+|
|| | | ||
Table 1 || | | ||
+---------------------------------------------+|+---------------------------------------------+|
| | | ||Lorem ipsum dolor sit amet, consectetur |
| | | ||adipiscing elit. Praesent in tortor consequat, |
| | | ||rutrum dolor fringilla, gravida felis. |
| | | ||Suspendisse quis condimentum diam, ut congue |
+---------------------------------------------+|quam. |
| |
Lorem ipsum dolor sit amet, consectetur | |
| |
并试图提取名为表 1 和表 2 的两个表。我现在有以下代码:
df = tabula.read_pdf("path_to_pdf")
但它将整个页面识别为具有两列的表,而不是返回两个表:表 1 和表 2
现在输出: 一个有两列的表格:第一列是这个页面的左列,第二列是这个页面的右列
需要的输出: 两个表,每列三列:表 1 和表 2