我正在使用以下pdf文件tabula
中的concat
所有内容tables
excel
成为格式中的一张表。
这是我的代码:
from tabula import read_pdf
import pandas as pd
allin = []
for page in range(1, 115):
table = read_pdf("goal.pdf", pages=page,
pandas_options={'header': None})[0]
allin.append(table)
new = pd.concat(allin)
new.to_excel("out.xlsx", index=False)
我也尝试了以下方法:
from tabula import read_pdf
import pandas as pd
table = read_pdf("goal.pdf", pages='all', pandas_options={'header': None})
new = pd.concat(table, ignore_index=True)
new.to_excel("out.xlsx", index=False)
当前输出:检查
但是从页面#面临的问题91
我开始看到excel
文件中的数据格式不正确。
我已经单独调试了页面,但我无法弄清楚为什么它的格式错误,尤其是它的格式相同。
from tabula import read_pdf
import pandas as pd
table = read_pdf("goal.pdf", pages='91', pandas_options={'header': None})[0]
print(table)
示例:
from tabula import read_pdf
import pandas as pd
table = read_pdf("goal.pdf", pages='90-91', pandas_options={'header': None})
new = pd.concat(table, ignore_index=True)
new.to_excel("out.xlsx", index=False)
在这里,我运行了第 90 和 91 页两页的代码。
从第 48 行开始,您将在这里看到不同之处
您会注意到将名称和地址放在一个单元格中的问题。城市和州也合而为一