python - Tabula-py 导出会聚并断开列-如何修复数据框

翻译自：https://stackoverflow.com/questions/70344633 2021-12-14T06:34:42.640

21 次

我正在尝试将 pdf 发票读入 csv。发票有 4 列。

发票如下所示：

描述	体积	单价
直接录入服务 DETCREDT JAN 直接录入信用交易	4,157	0.00 美元
DERECITM JAN 召回物品	3	0.00 美元
DETCREPR JAN 直接输入工资单交易	5,882	是的

运行以下代码后：

!pip install tabula-py
import pandas as pd
import tabula
df = tabula.read_pdf("/content/invoice.pdf",pages="all")
tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')

收到的输出奇怪地显示 tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')

描述	体积	单价	费用
直接录入服务 DETCREDT JAN 直接录入信用交易 4,157	0.00 美元	0.00 美元
DERECITM JAN 召回第 3 项	0.00 美元	0.00 美元
DETCREPR JAN 直接输入工资单交易 5,882	0.00 美元	0.00 美元

如何将描述后面的数字分成单独的列？2.如何将描述中的代码 DERECITM ,DETCREPR,DETCREDT 放入一个名为代码的单独列中？
如何将表格转换为数据框并将其导出？因为我试过

df.to_csv(r'/content/invoice.csv', index=False, header=True) 但我得到 df 是一个列表的错误，这个导出什么也没产生。

我才华横溢的朋友们，我将非常感谢您帮助我解决这个问题。

python - Tabula-py 导出会聚并断开列-如何修复数据框

0 回答 0

Related

Reference