python - 使用 Python 读取非严格的 CSV 文件

Question

我的 CSV 文件在这里

这是我的数据格式：

1763212493,zhangniuzhang,男,,是的，(这是中文逗号,不是英文)我愿意,湖北武汉,1763212493,69,86,316,,,tp2.sinaimg.cn/1763212493/50/5613831962/1,0,"免费,房子,旅行,80","1863415082,1752861352"

和我的代码：

import csv

with open("test.csv", "r") as f:
    reader = csv.DictReader(f)
    for row in reader:
        print row

这很简单，但我得到如下：

{'mn': '316', 'ci': '', 'sx': 'male', 'ei': '', 'ad': 'hubei;"wuhan', 'vi': '', 'fui;': 'house', 'de': 'yes\xef\xbc\x8ci do', 'iu': 'tp2.sinaimg.cn/1763212493/50/5613831962/1', 'an': '69', 'un': '1763212493', 'iv': '0', 'sn': 'zhangniuzhang', None: ['trip', '80""', '1863415082', '1752861352"""'], 'tg': 'free', '_id': '1763212493', 'fn': '86'}
{'mn': '1104', 'ci': '', 'sx': 'femail', 'ei': '', 'ad': 'jilin;"changchun', 'vi': '', 'fui;': 'art', 'de': '', 'iu': 'tp2.sinaimg.cn/1854635021/50/1289455604/0', 'an': '71', 'un': '1854635021', 'iv': '0', 'sn': 'ladywang', None: ['reading', 'music""', '1949520584', '1288127940', '1193111400"""'], 'tg': 'life', '_id': '1854635021', 'fn': '258'}

对于第一条记录，adequals hubei;"wuhan，但在原始文件中没有"; 它在不同的列中。

许多字段的值错误。对于第一个记录：

1763212493,zhangniuzhang,男,,yes,i do,hubei wuhan,1763212493,69,86,316,,,tp2.sinaimg.cn/1763212493/50/5613831962/1,0,"free,house,trip,80"," 1863415082,1752861352"

输出应该是：

{'mn': '316', 'ci': '', 'sx': 'male', 'ei': '', 'ad': 'hubei wuhan', 'vi': '', 'fui': '1863415082,1752861352', 'de': 'yes\xef\xbc\x8ci do', 'iu': 'tp2.sinaimg.cn/1763212493/50/5613831962/1', 'an': '69', 'un': '1763212493', 'iv': '0', 'sn': 'zhangniuzhang', 'tg': 'free,house,trip,80', '_id': '1763212493', 'fn': '86'}

但是输出是一团糟，不是正确的顺序，也不是正确的值。

有什么建议么？

score 0 · Accepted Answer

你可以试试喜欢。

文件路径是你的 test.csv 的路径

fdata = open(filepath) 
fread = [ l for l in fdata.readlines() if l.strip() ]

现在你可以迭代 fread

python - 使用 Python 读取非严格的 CSV 文件

1 回答 1

Related

Reference