我正在尝试将 pdf 发票读入 csv。发票有 4 列。
发票如下所示:
描述 | 体积 | 单价 | 费用 |
---|---|---|---|
直接录入服务 DETCREDT JAN 直接录入信用交易 | 4,157 | 0.00 美元 | 0.00 美元 |
DERECITM JAN 召回物品 | 3 | 0.00 美元 | 0.00 美元 |
DETCREPR JAN 直接输入工资单交易 | 5,882 | 是的 | 0.00 美元 |
运行以下代码后:
!pip install tabula-py
import pandas as pd
import tabula
df = tabula.read_pdf("/content/invoice.pdf",pages="all")
tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')
收到的输出奇怪地显示 tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')
描述 | 体积 | 单价 | 费用 |
---|---|---|---|
直接录入服务 DETCREDT JAN 直接录入信用交易 4,157 | 0.00 美元 | 0.00 美元 | |
DERECITM JAN 召回第 3 项 | 0.00 美元 | 0.00 美元 | |
DETCREPR JAN 直接输入工资单交易 5,882 | 0.00 美元 | 0.00 美元 |
如何将描述后面的数字分成单独的列?2.如何将描述中的代码 DERECITM ,DETCREPR,DETCREDT 放入一个名为代码的单独列中?
如何将表格转换为数据框并将其导出?因为我试过
df.to_csv(r'/content/invoice.csv', index=False, header=True) 但我得到 df 是一个列表的错误,这个导出什么也没产生。
我才华横溢的朋友们,我将非常感谢您帮助我解决这个问题。