1

使用 Tabula-py 提取 pdf 表,它提取所有行但没有正确拆分。采取下面的样本 pdf 进行提取。

1

尝试使用以下代码提取

import tabula
import json
import pandas as pd

path = "/GST_OCR input Pdfs/gst3.pdf"
col2str = {'dtype': str}
kwargs = {
        "multiple_tables":True,
        'pandas_options': col2str,
        'lattice':False,
        'guess':False
}
csv_data = tabula.read_pdf(path, pages="all",**kwargs)
# with pd.ExcelWriter(csv_data[1].iloc[0,1]+".xls", engine='xlsxwriter') as writer:
#     for i in range(len(csv_data)):
#         csv_data[i].to_excel(writer, sheet_name=f'Sheet {i+1}')
csv_data[5]

它没有正确提取行,而是创建了未命名的列。像这样提取 2

帮我解决这个问题。提前致谢

4

0 回答 0