1

使用 Python 3.3.0,我从 csv 文件(标题:)创建了一个“字典” ID;Col1;Col2;Col3;Col4;Col5

ID;Col1;Col2;Col3;Col4;Col5
15345;1;1;nnngngn;vhrhtnz;latest
12345;12;8;gnrghrtthr;tznhltrnhklr;latest
90834;3;4;something;nonsens;latest
12345;34;235;dontcare;muhaha;oldone

带代码

file = "test.csv" 
csv_file = csv.DictReader(open(file, 'r'), delimiter=';', quotechar='"')

我想将 ID = 12345 的行复制到新字典中,而不是复制到文件中。我真的需要复制到字典中,而不是列表中,因为我希望能够直接处理列名。我这样做了

cewl = {}
for row in csv_file:
   if row['ID'] == '12345':
   cewl.update(row)
print(cewl)

输出是:

{'ID': '12345', 'Col1': '34', 'Col2': '235', 'Col3': 'dontcare', 'Col4': 'muhaha', 'Col5': 'oldone'}

我的问题: 只有 ID=12345 的第二行被复制,第一行被省略,我不知道为什么。

如果我通过复制到一个新列表来尝试这个(仅用于测试目的),一切正常:

cewl = []
for row in csv_file1:
if row['ID'] == '12345':
    cewl.append(row)
print(cewl)

输出是:

[{'Col3': 'gnrghrtthr', 'Col2': '8', 'Col1': '12', 'Col5': 'latest', 'Col4': 'tznhltrnhklr', 'ID': '12345'}, 
{'Col3': 'dontcare', 'Col2': '235', 'Col1': '34', 'Col5': 'oldone', 'Col4': 'muhaha', 'ID': '12345'}]

我不知道为什么通过复制到新字典中这不起作用……似乎没有像 .add 或 .append 这样的方法用于 dictreader。

如何将我的数据复制到新字典中而不会丢失任何行?

4

1 回答 1

2

什么是预期的输出?对于 a 来说,这种行为是完全正常的dict;您正在用新值替换每个键的值

如果您希望这些值是每个匹配行的值列表defaultdict,则将 a与list工厂一起使用会更容易:

from collections import defaultdict

cewl = defaultdict(list)

for row in csv_file:
   if row['ID'] == '12345':
       for k, v in row.items():
           cewl[k].append(v)

print(cewl)

这输出:

defaultdict(<class 'list'>, {'Col1': ['12', '34'], 'ID': ['12345', '12345'], 'Col2': ['8', '235'], 'Col5': ['latest', 'oldone'], 'Col4': ['tznhltrnhklr', 'muhaha'], 'Col3': ['gnrghrtthr', 'dontcare']})

Adefaultdict是 的子类dict,所以print(cewl['Col1'])会打印['12', '34']

当你使用.update()你有效地做到这一点:

for k, v in row.items():
    cewl[k] = v

例如,将每个键设置cewl为在正在处理的行中找到的值。在处理最后一行时,它的值会覆盖前一行的值。

如果您只想过滤掉与特定ID条件匹配的行,那么将它们添加到列表中就可以了。然后循环匹配的结果来处理它们:

for row in cewl:
    # do something with matched row

或者您可以构建一个生成器过滤器,围绕您DictReader()的过滤器为您进行过滤,因此您无需在内存中构建列表:

def rowfilter(reader, id):
    for row in reader:
        if row['ID'] == id:
            yield row

for row in rowfilter(csv_file, '12345'):
    # do something with matched row
于 2013-02-12T10:30:29.880 回答