0

我有一个 CSV 文件,当我在记事本中打开时,显示如下:

A,B
C,
D,E,F,G,H

我看到它在状态栏的右下角显示为 Unix (LF) 和 UTF-8。当我在 excel 中打开文件,保存(但不做任何更改)并关闭它时,它将按预期将其转换为 Windows(CRLF)并在记事本中显示如下:

A,B,,,
C,,,,
D,E,F,G,H

标题行是第三行(D、E、F、G、H),我的理解是,在保存之前,Excel 会读取整个 CSV 文件,找出最长的行有 4 个逗号,并在整个文件中使用该格式文件。我遇到的问题是将原始 LF CSV 文件读入 Pandas .read_csv。我想我已经将解决​​方案缩小到 2 个可能的选项(但如果我错了,请纠正我):

选项 1:在我的主要 python 脚本中,我从一个 def 函数开始,它只遍历我打开、保存和关闭的文件夹中的每个 csv 文件,以便在使用 Pandas 中的 csv 文件之前将其格式化为 CRLF。

选项 2:在将 csv 文件读入 Pandas 时对其进行格式化。我觉得这是更好的选择,尤其是知道我拥有的列数并使用 .read_csv(header = 3) 但是当我打开输出文件并运行 excel 公式时,计算时间很疯狂,即使对于相对较小的文件也是如此。我觉得这是一个数据类型问题,但我对这一切仍然很陌生。非常感谢任何澄清或资源!

4

0 回答 0