python-3.x - 使用 Python 从多列 pdf 中提取表格

Question

我有以下格式的pdf

Lorem ipsum dolor sit amet, consectetur        |Table 2                                        | 
adipiscing elit. Praesent in tortor consequat, |+---------------------------------------------+|
rutrum dolor fringilla, gravida felis.         ||              |               |              ||
Suspendisse quis condimentum diam, ut congue   ||              |               |              ||
quam.                                          |+---------------------------------------------+|
                                               ||              |               |              ||
Table 1                                        ||              |               |              ||
+---------------------------------------------+|+---------------------------------------------+|
|              |               |              ||Lorem ipsum dolor sit amet, consectetur        |
|              |               |              ||adipiscing elit. Praesent in tortor consequat, |
|              |               |              ||rutrum dolor fringilla, gravida felis.         |
|              |               |              ||Suspendisse quis condimentum diam, ut congue   |
+---------------------------------------------+|quam.                                          |
                                               |                                               |
Lorem ipsum dolor sit amet, consectetur        |                                               |
                                               |                                               |

并试图提取名为表 1 和表 2 的两个表。我现在有以下代码：

df = tabula.read_pdf("path_to_pdf")

但它将整个页面识别为具有两列的表，而不是返回两个表：表 1 和表 2

现在输出： 一个有两列的表格：第一列是这个页面的左列，第二列是这个页面的右列

需要的输出： 两个表，每列三列：表 1 和表 2

score 1 · Accepted Answer

您是否尝试过“multiple_tables”参数？

df = tabula.read_pdf(file_path, multiple_tables=True)

如 Tabula Python Docs 中所述：

https://tabula-py.readthedocs.io/en/latest/faq.html#i-want-to-extract-multiple-tables-from-a-document

python-3.x - 使用 Python 从多列 pdf 中提取表格

1 回答 1

Related

Reference