使用 camelot 读取 PDF 表时,一些列被连接起来,它们的值也如下所示
Date | Facture-ref\nfactureid| Description\items| Payé\nEscompte |Déboursé\nPaiement\net
--------------------------------------------------------------------
12/12/2019| 45333\n34343 | 7899\nscrewio | 89\n0.00 |3443.12\n231232.00\n456
12/12/2019| 453343\n3434 | 7845\nscrewio | 78\n0.00 |34.12\n232.00\455
我的输出应该如下所示
Date |facture | Facture | factureid | Description| items | Payé | Escompte| Déboursé | Paiement | net
-----------------------------------------------------
12/12/2017 | 45333 | 34343 | #al: 7899 | screwio | 89 | 0.00 | 3443.12| 231232.00 | 456|
12/12/2017 | 453343 | 3434 | #rfp: 7845 | screwio | 78 | 0.00 | 34.12 | 232.00 | 455 |
我希望根据换行符分隔列和值。
您使用以下 df 进行实验创建
数据 = [['12/12/2019', '45333\n34343','7899\nscrewio','89\n0.00','3443.12\n231232.00\n456'], ['12/12/2019 ', '232\n3434','7845\nnuts','78\n0.00','34.12\n232.00\455'] ]
df33 = pd.DataFrame(data, columns = ['Date', 'Facture-ref\nfactureid','Description\nitems','Payé\nEscompte','Déboursé\nPaiement\nnet'])