这是一个关于在字典理解内的列表理解上使用 set() 与字典理解和重复分配给新字典的性能的问题
所以我碰巧有一个数据集,它是一个列表列表,我需要获取一个唯一的元素列表,这些元素在大列表中的每个列表中索引为“0”,以便能够制作一个新字典从他们那里.. 像 dict.fromkeys() .. 在这里我需要提供唯一键列表..
我在用着
[1]{ x : [] for x in set([i[0] for i in data])}
并且还使用
[2]{ i[0] : [] for i in data}
此处供参考的样本数据可能如下:
[[1,3,4], [3,5,2], [1,5,2]]
上面运行 [1] 和 [2] 的结果将是:
{ 1:[], 3: [] }
我在这两个语句上都尝试了 %timeit 并且都给出了几乎相同的结果,这使得很难确定哪个是最好的,性能方面,对于大列表
我如何在这里识别潜在的瓶颈?
编辑:
如果这有助于解释结果..
In [172]: data_new = data * 10000
In [173]: %timeit { i[0] : [] for i in data_new}
10 loops, best of 3: 160 ms per loop
In [174]: %timeit { x : [] for x in set([i[0] for i in data_new])}
10 loops, best of 3: 131 ms per loop
In [175]: data_new = data * 100000
In [176]: %timeit { x : [] for x in set([i[0] for i in data_new])}
1 loops, best of 3: 1.37 s per loop
In [177]: %timeit { i[0] : [] for i in data_new}
1 loops, best of 3: 1.58 s per loop
In [178]: data_new = data * 1000000
In [179]: %timeit { i[0] : [] for i in data_new}
1 loops, best of 3: 15.8 s per loop
In [180]: %timeit { x : [] for x in set([i[0] for i in data_new])}
1 loops, best of 3: 13.6 s per loop