在 Python 中使用 tabula 从 pdf 导入数据时,在某些情况下,我会获得合并为一列的两列或多列。从同一个 pdf 获得的所有文件都不会发生这种情况。
在这种情况下,这是用于读取 pdf 的代码:
from tabula import wrapper tables = wrapper.read_pdf("933884 cco Saupa 1.pdf",multiple_tables=True,pages='all') i=1 for table in tables: table.to_excel('output'+str(i)+'.xlsx',index=False) i=i+1
例如,当我打印从其中一个名为“output_pd”的 Excel 文件中获取的数据框的第一项时:
print (output_pd[0][1])
我得到:
76) 858000015903708 77) 858000013641969 78)
这五个数字在一个列中,所以我不能单独对待它们。在这些情况下是否可以改进数据处理?