2

我正在使用字典对 CSV 文件中的数据进行分组,因此例如第一列和第二列是 dict 键,值将是第 3,4 列的元组列表。

我的代码片段是:

import csv
import collections
csvDicData_ = dict()

fh = open('myfile.csv', 'rt')
reader = csv.reader(fh, delimiter=';', skipinitialspace=True)
for indx, row in enumerate(reader):
    if row:
        #-- put in a dictionary form: #csvDicData_[(row[0],row[1])] = (row[2],row[3])
        key   = (row[0],row[1])
        value = (row[2],row[3])
        #-- I'd like to use the row below (commented) insted of the next two, I expect the same result... 
        #csvDicData_.setdefault(key,[value]).append(value)

        if (not key in csvDicData_): csvDicData_[key] = [value]
        else: csvDicData_[key].append(value)

上面的代码产生了正确的结果,尽管我尝试使用csvDicData_.setdefault(key,[value]).append(value)并且由于某种我不明白的原因,len(csvDicData_[('field1x','field2x')] ))总是有一个预期的项目(值(0,0)。

为什么会出现这种行为(就像 CSV 文件中每个键的第一行自动将元组 (0,0) 添加到字典/键中一样)。

4

2 回答 2

2

当你这样做

csvDicData_.setdefault(key,[value]).append(value)

您将列表初始化为[value],如果缺少,然后附加value到它,给您[value, value]. 你想要的是用一个空列表进行初始化:

csvDicData_.setdefault(key,[]).append(value)

或使用collections.defaultdict(list)并做

csvDicData_[key].append(value)
于 2016-03-10T14:15:07.480 回答
2

当你第一次这样做

csvDicData_.setdefault(key,[value]).append(value)

key不会出现在字典中,因此将使用值创建键[value]。现在,setdefault返回对应的值key。因此,[value]返回并且您正在附加value到它。这就是为什么你总是得到一个额外的元素。

这应该只是

csvDicData_.setdefault(key, []).append(value)

现在,将返回空列表,您将附加value到它。


除此之外,您可能希望使用with语句打开文件,如下所示

with open('myfile.csv', 'rt') as fh:
    reader = csv.reader(fh, delimiter=';', skipinitialspace=True)
    for indx, row in enumerate(reader):
        ....

这样您就不必担心显式关闭文件。

于 2016-03-10T14:15:59.833 回答