我正在尝试使用 python 的 csv 模块cities5000.txt
从 geonames.org ( http://download.geonames.org/export/dump/cities5000.zip ) 解析并得到非常奇怪的行为:cvs
不要拆分文件中的所有行。
例如:
>>> len(open('cities5000.txt').read().splitlines())
46955
>>> len(list(csv.reader(open('cities5000.txt'))))
46955
# but here comes some fun
>>>len(list(csv.reader(open('cities5000.txt'), delimiter='\t')))
46048
-'\t'
是此文件中使用的实际分隔符。因此,大约有 900 条记录被识别为其他一些记录字段的一部分。但是在解析的数据中其他一切都很好。
问题是:这是什么原因,如果不手动拆分所有这些记录,我怎么能逃脱它?