我有一个包含数百万行的大文件(1.6 gigs),其中的列分隔为:
[||]
我曾尝试使用 csv 模块,但它说我只能使用单个字符作为分隔符。所以这就是我所拥有的:
fileHandle = open('test.txt', 'r', encoding="UTF-16")
thelist = []
for line in fileHandle:
fields = line.split('[||]')
therow = {
'dea_reg_nbr':fields[0],
'bus_actvty_cd':fields[1],
'drug_schd':fields[3],
#50 more columns like this
}
thelist.append(therow)
fileHandle.close()
#now I have thelist which is what I want
并且繁荣,现在我有一个字典列表并且它有效。我想要一个列表,因为我关心订单,还有字典,因为它在下游是预期的。这感觉就像我应该利用更有效的东西。我认为这不适用于超过一百万行和如此多的数据。所以,我的问题如下:
采用多字符分隔文本文件(UTF-16 编码)并创建字典列表的更有效方法是什么?
任何想法将不胜感激!