2

我有一本字典,我试图以某种方式输出其中的信息,以便可用于下游分析。注意: 中的所有键dict也在 中list

for item in list:
    for key, value in dict[item].items():
        print item, key, value

这是我最接近我想要的东西,但还有很长的路要走。理想情况下,我想要的是:

     item1  item2  item3  item4
key1 value  value  value  value
key2 value  value  value  value
key2 value  value  value  value

这甚至可能吗?

4

4 回答 4

3

首先,如果我了解您的结构,则列表只是为外部字典排序键的一种方式,并且您的很多复杂性是试图将这两者结合使用来模拟有序字典。如果是这样,有一个更简单的方法来做到这一点:使用collections.OrderedDict. 最后我会回到那个。


首先,您需要获取子词典的所有键,因为这些是输出的行。

从评论中,听起来所有子词典dct都有相同的键,所以你可以从任意一个中拉出键:

keys = dct.values()[0].keys()

如果每个子词典可以有不同的键子集,则需要先进行一次遍历dct以获取所有键:

keys = reduce(set.union, map(set, dct.values()))

有些人觉得reduce很难理解,即使你真的只是将它用作“sum与不同的运营商”。对于他们来说,这里是如何明确地做同样的事情:

keys = set()
for subdct in dct.values():
    keys |= set(subdct)

现在,对于每个键的行,我们需要为每个子字典(即外部字典中的每个值)获取一列,按照使用列表元素作为外部字典的键指定的顺序。

因此,对于每一列item,我们要获取对应于键 in 的外部字典值item,然后在生成的子字典中,获取对应于行的值key。这用英语很难说,但在 Python 中,它只是:

dct[item][key]

如果您实际上在所有子字典中没有所有相同的键,那么它只会稍微复杂一些:

dct[item].get(key, '')

所以,如果你不想要任何标题,它看起来像这样:

with open('output.csv', 'wb') as f:
    w = csv.writer(f, delimiter='\t')
    for key in keys:
        w.writerow(dct[item].get(key, '') for item in lst)

要添加标题列,只需将标题(在本例中为key)添加到每一行:

with open('output.csv', 'wb') as f:
    w = csv.writer(f, delimiter='\t')
    for key in keys:
        w.writerow([key], [dct[item].get(key, '') for item in lst])

请注意,我将 genexp 转换为列表推导,因此我可以使用列表连接来添加key. 从概念上讲,将其保留为迭代器并itertools.chain在前面加上 .

with open('output.csv', 'wb') as f:
    w = csv.writer(f, delimiter='\t')
    for key in keys:
        w.writerow(chain([key], (dct[item].get(key, '') for item in lst)))

您还需要一个标题行。这更容易;它只是列表中的项目,标题列前面有一个空白列:

with open('output.csv', 'wb') as f:
    w = csv.writer(f, delimiter='\t')
    w.writerow([''] + lst)
    for key in keys:
        w.writerow([key] + [dct[item].get(key, '') for item in lst])

但是,有两种方法可以让事情变得更简单。

首先,您可以使用OrderedDict,因此您不需要单独的密钥列表。如果您坚持使用单独的listand dict,您仍然可以OrderedDict即时构建以使您的代码更易于阅读。例如:

od = collections.OrderedDict((item, dct[item]) for item in lst)

现在:

with open('output.csv', 'wb') as f:
    w = csv.writer(f, delimiter='\t')
    w.writerow([''] + od.keys())
    for key in keys:
        w.writerow([key] + [subdct.get(key, '') for subdct in od.values()])

其次,您可以构建转置结构:

transposed = {key_b: {key_a: dct[key_a].get(key_b, '') for key_a in dct} 
              for key_b in keys}

然后以明显的顺序对其进行迭代(或使用 aDictWriter为您处理列的顺序,并使用它的writerows方法来处理行,因此整个事情变成了单线)。

于 2013-06-20T22:29:51.477 回答
2

要将对象存储在 Python 中以便以后可以重新使用它们,您可以使用该shelve模块。这是一个模块,可让您将对象写入架子文件并重新打开它并稍后检索对象,但它依赖于操作系统,因此如果您在 Mac 上创建它并且稍后您想要打开它,它将无法工作它在 Windows 机器上。

import shelve

shelf = shelve.open("filename", flag='c') 
#with flag='c', you have to delete the old shelf if you want to overwrite it

dict1 = #something
dict2 = #something

shelf['key1'] = dict1
shelf['key2'] = dict2

shelf.close()

从架子上读取对象:

shelf_reader = shelve.open("filename", flag='r')
for k in shelf_reader.keys():
    retrieved = shelf_reader[k]
    print(retrieved) #prints the retrieved dictionary

shelf_reader.close()
于 2013-06-20T22:33:58.073 回答
1

这可能是一个见仁见智的问题,但我认为序列化(嵌套)字典的最佳(也是迄今为止最简单的)方法之一是使用 JSON 格式:

{ "key1" : { "subkey1" : "value1",
             "subkey2" : "value2" },
  "key2" : {"subkey3" : "value3"} }

json最好的是,这可以使用内置模块在一行中完成(用于编码或解码值) !

让我们考虑您的字典是dico变量:

import json
save_file = open('save_file', 'w')
save_file.write( json.dumps(dico) )

等等瞧 :-) !

于 2013-06-20T22:27:14.340 回答
0

如果保证将数据加载回 Python,我建议简单地使用pickle而不是担心格式。如果要将其加载到另一种标准语言中,请考虑json改用 - 大多数语言都有库来解析 JSON 格式数据。

也就是说,如果您真的需要发明自己的格式,您可以执行以下操作以 CSV 格式存储所有子字典中的所有键:

import csv
dict_keys = sorted(dict.keys())
with open("output.csv", "wb") as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(["Key"] + dict_keys)
    all_keys = reduce(set.union, (set(d) for d in dict.values()))
    for key in sorted(all_keys):
        writer.writerow([key] + [dict[k].get(key, "") for k in dict_keys])
于 2013-06-20T22:35:14.297 回答