1

我有以下格式的pdf

Lorem ipsum dolor sit amet, consectetur        |Table 2                                        | 
adipiscing elit. Praesent in tortor consequat, |+---------------------------------------------+|
rutrum dolor fringilla, gravida felis.         ||              |               |              ||
Suspendisse quis condimentum diam, ut congue   ||              |               |              ||
quam.                                          |+---------------------------------------------+|
                                               ||              |               |              ||
Table 1                                        ||              |               |              ||
+---------------------------------------------+|+---------------------------------------------+|
|              |               |              ||Lorem ipsum dolor sit amet, consectetur        |
|              |               |              ||adipiscing elit. Praesent in tortor consequat, |
|              |               |              ||rutrum dolor fringilla, gravida felis.         |
|              |               |              ||Suspendisse quis condimentum diam, ut congue   |
+---------------------------------------------+|quam.                                          |
                                               |                                               |
Lorem ipsum dolor sit amet, consectetur        |                                               |
                                               |                                               |

并试图提取名为表 1 和表 2 的两个表。我现在有以下代码:

df = tabula.read_pdf("path_to_pdf")

但它将整个页面识别为具有两列的表,而不是返回两个表:表 1 和表 2

现在输出: 一个有两列的表格:第一列是这个页面的左列,第二列是这个页面的右列

需要的输出: 两个表,每列三列:表 1 和表 2

4

1 回答 1

1

您是否尝试过“multiple_tables”参数?

df = tabula.read_pdf(file_path, multiple_tables=True)

如 Tabula Python Docs 中所述:

https://tabula-py.readthedocs.io/en/latest/faq.html#i-want-to-extract-multiple-tables-from-a-document

于 2020-12-18T17:13:36.390 回答