我试图使用 tabularead_pdf()
方法从 PDF 文件中读取表格。但它不是阅读完整的表格。它在表格的某些行上丢失了。我正在尝试以下给定的代码:
tables = tabula.read_pdf(f,
stream=True,
pages="all",
silent=False,
multiple_tables=True,
password=pas,
pandas_options={'header': None}
)
df = pd.DataFrame()
df = pd.concat([c for c in tables]).drop_duplicates()
df = df.replace(r'^\s*$', np.nan, regex=True)
df = df[df.isnull().sum(axis=1) < df.shape[1] - 2].reset_index(drop=True)
这是运行上述代码时的输出:
| XNS Date | Narration | Withdrawl | Credits |
|------------|-----------|-----------|---------|
| 01/04/2018 | IMPS 1234 | 2200 | |
| 02/04/2018 | NEFT 4567 | | 4500 |
| 03/04/2018 | RTGS 2234 | | 5500 |
以及来自 PDF 文件的实际数据
| XNS Date | Narration | Withdrawl | Credits |
|------------|-----------|-----------|---------|
| 30/03/2018 | NEFT 445 | | 1200 |
| 31/03/2018 | RTGS 556 | | 2000 |
| 01/04/2018 | IMPS 1234 | 2200 | |
| 02/04/2018 | NEFT 4567 | | 4500 |
| 03/04/2018 | RTGS 2234 | | 5500 |
| 04/04/2018 | POS | 1500 | |