我的 CSV 文件在这里
这是我的数据格式:
1763212493,zhangniuzhang,男,,是的,(这是中文逗号,不是英文)我愿意,湖北武汉,1763212493,69,86,316,,,tp2.sinaimg.cn/1763212493/50/5613831962/1,0,"免费,房子,旅行,80","1863415082,1752861352"
和我的代码:
import csv
with open("test.csv", "r") as f:
reader = csv.DictReader(f)
for row in reader:
print row
这很简单,但我得到如下:
{'mn': '316', 'ci': '', 'sx': 'male', 'ei': '', 'ad': 'hubei;"wuhan', 'vi': '', 'fui;': 'house', 'de': 'yes\xef\xbc\x8ci do', 'iu': 'tp2.sinaimg.cn/1763212493/50/5613831962/1', 'an': '69', 'un': '1763212493', 'iv': '0', 'sn': 'zhangniuzhang', None: ['trip', '80""', '1863415082', '1752861352"""'], 'tg': 'free', '_id': '1763212493', 'fn': '86'}
{'mn': '1104', 'ci': '', 'sx': 'femail', 'ei': '', 'ad': 'jilin;"changchun', 'vi': '', 'fui;': 'art', 'de': '', 'iu': 'tp2.sinaimg.cn/1854635021/50/1289455604/0', 'an': '71', 'un': '1854635021', 'iv': '0', 'sn': 'ladywang', None: ['reading', 'music""', '1949520584', '1288127940', '1193111400"""'], 'tg': 'life', '_id': '1854635021', 'fn': '258'}
对于第一条记录,ad
equals hubei;"wuhan
,但在原始文件中没有"
; 它在不同的列中。
许多字段的值错误。对于第一个记录:
1763212493,zhangniuzhang,男,,yes,i do,hubei wuhan,1763212493,69,86,316,,,tp2.sinaimg.cn/1763212493/50/5613831962/1,0,"free,house,trip,80"," 1863415082,1752861352"
输出应该是:
{'mn': '316', 'ci': '', 'sx': 'male', 'ei': '', 'ad': 'hubei wuhan', 'vi': '', 'fui': '1863415082,1752861352', 'de': 'yes\xef\xbc\x8ci do', 'iu': 'tp2.sinaimg.cn/1763212493/50/5613831962/1', 'an': '69', 'un': '1763212493', 'iv': '0', 'sn': 'zhangniuzhang', 'tg': 'free,house,trip,80', '_id': '1763212493', 'fn': '86'}
但是输出是一团糟,不是正确的顺序,也不是正确的值。
有什么建议么?