0

我正在尝试转换 pdf 文件并将其保存到 Django 模型字段。到目前为止,我能够将文件转换为 CSV 数据框,我能够读取标题和数据。但是,我遇到了一个小障碍,因为该表有 1 行包含大量数据,并且标题已过时,因此它们会随着时间而变化。

这是pdf中表格的片段: 在此处输入图像描述

这是我到目前为止所做的:

import tabula
f = tabula.read_pdf('roster.pdf', pages='1')
table = f[0].replace('\r', " ", regex=True)
print(table)

--> 1Jul\rThu  ...   31Jul\rSat
0  RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC ...  ...      OFF DOH
1                                  DH:16:50 BH:06:50  ...  00:00 00:00
[2 rows x 31 columns]

row_iter = table.iterrows()
for index, row in row_iter:
    print(row[0])
--> RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH
DH:16:50 BH:06:50

print(list(table.columns))

--> ['01Jul\rThu', '02Jul\rFri', '03Jul\rSat', '04Jul\rSun', '05Jul\rMon', '06Jul\rTue', '07Jul\rWed', '08Jul\rThu', '09Jul\rFri', '10Jul\rSat', '11Jul\rSun', '12Jul\rMon', '13Jul\rTue', '14Jul\rWed', '15Jul\rThu', '16Jul\rFri', '17Jul\rSat', '18Jul\rSun', '19Jul\rMon', '20Jul\rTue', '21Jul\rWed', '22Jul\rThu', '23Jul\rFri', '24Jul\rSat', '25Jul\rSun', '26Jul\rMon', '27Jul\rTue', '28Jul\rWed', '29Jul\rThu', '30Jul\rFri', '31Jul\rSat']

我想做的就是将列与其相应的数据匹配以将其用作 JSON。

{"date": "01Jul", "info":"RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH DH:16:50 BH:06:50"}
4

0 回答 0