示例文件我收到用(逗号或 | 或 ^)分隔的包含数百万条记录的大型 CSV 文件。
某些字段具有不可打印的字符,例如 CR|LF,它被翻译为字段结尾。这是在windows10中。
我需要编写 python 来遍历文件并删除字段中的 CR|LF。但是,我不能全部删除,因为这样行将被合并。
我在这里浏览了几篇关于如何删除不可打印的帖子。我想写一个熊猫数据框,然后检查每个字段的 CR|LF 并将其删除。好像有点复杂。如果你有一个快速的代码如何做到这一点,这将是很大的帮助。
提前致谢。
示例文件:
record1, 111. texta, textb CR|LF
record2, 111. teCR|LF
xta, textb CR|LF
record3, 111. texta, textb CR|LF
示例输出文件应为:
record1, 111. texta, textb CR|LF
record2, 111. texta, textb CR|LF
record3, 111. texta, textb CR|LF
CR = 回车 = x0d LF = 换行 = x0a