0

我正在处理一些创建不正确的 CSV 文件。引号和逗号相互关联,并且我不断从 pd.read_csv 中收到解析错误,即使在用制表符替换所有列分隔逗号之后也是如此。

尽管如此,Numbers(Apple 的 Excel)可以完美地读取文件,并且在将其重新保存为 csv 后,Pandas 可以无缝生成数据帧。因此,我想知道是否有一种方法,最好是通过 Python,在 Numbers/Excel(可能是 API?)中自动执行此导入导出,以修复我的 CSV,或者找出他们如何纠正它们。

编辑:CSV 行如下所示:

"id","lastVisitTimeLocal","lastVisitTimeUTC","title","url","typedCount","visitCount",""[]"_id","_id" 8986,"06/03/2018, 20: 00:48","2018 年 3 月 6 日下午 2:30:48",""," https://chrome.google.com ",0,1,3000001,2000001

尽管有些标题包含逗号,有些链接包含引号,所以我不断收到解析错误,尽管 Numbers/Excel 可以无缝解析它们。

EDIT2:我正在寻找执行以下操作的管道:

file.csv --excel_engine--> file.xlsx --excel_engine--> file2.csv

4

1 回答 1

1

您是否尝试过设置quotingdoublequote输入pd.read_csv()?对我来说很奇怪 Pandas 无法读取 Excel 可以读取的 csv(我通常会遇到 Excel 问题;我遇到的 Pandas 唯一问题是 NUL 字符)。

或者,您也可以在 VBA 中运行它:

Sub openCsvAndSave()
    Dim csv_paths, path
    csv_paths = Array(path1, path2, ...) ' Set your csv paths here '
    For Each path in csv_paths
        Dim NewWb As Workbook: Set NewWb = Workbooks.Open(path)
        NewWb.SaveAs Left(path, Len(path) - 4) & "_2.csv", xlCSV
    Next path
End 
于 2018-07-18T07:20:25.797 回答