0

我正在尝试将 pdf 发票读入 csv。发票有 4 列。

发票如下所示:

描述 体积 单价 费用
直接录入服务 DETCREDT JAN 直接录入信用交易 4,157 0.00 美元 0.00 美元
DERECITM JAN 召回物品 3 0.00 美元 0.00 美元
DETCREPR JAN 直接输入工资单交易 5,882 是的 0.00 美元

运行以下代码后:

!pip install tabula-py
import pandas as pd
import tabula
df = tabula.read_pdf("/content/invoice.pdf",pages="all")
tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')

收到的输出奇怪地显示 tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')

描述 体积 单价 费用
直接录入服务 DETCREDT JAN 直接录入信用交易 4,157 0.00 美元 0.00 美元
DERECITM JAN 召回第 3 项 0.00 美元 0.00 美元
DETCREPR JAN 直接输入工资单交易 5,882 0.00 美元 0.00 美元
  1. 如何将描述后面的数字分成单独的列?2.如何将描述中的代码 DERECITM ,DETCREPR,DETCREDT 放入一个名为代码的单独列中?

  2. 如何将表格转换为数据框并将其导出?因为我试过

    df.to_csv(r'/content/invoice.csv', index=False, header=True) 但我得到 df 是一个列表的错误,这个导出什么也没产生。

我才华横溢的朋友们,我将非常感谢您帮助我解决这个问题。

4

0 回答 0