3

编辑:正如@BrenBarn 指出的那样,原来的没有意义。

给定一个 dicts 列表(由 --csv.DictReader它们都有str键和值),最好通过将它们全部填充到一个集合中来删除重复项,但这不能直接完成,因为dict它不是可散列的。一些现有的 问题涉及如何伪造__hash__()集合/字典,但没有解决应该首选哪种方式。

# i. concise but ugly round trip
filtered = [eval(x) for x in {repr(d) for d in pile_o_dicts}]

# ii. wordy but avoids round trip
filtered = []
keys = set()
for d in pile_o_dicts:
    key = str(d)
    if key not in keys:
        keys.add(key)
        filtered.append(d)

# iii. introducing another class for this seems Java-like?
filtered = {hashable_dict(x) for x in pile_o_dicts}

# iv. something else entirely

本着Python 之禅的精神,什么是“显而易见的方法”?

4

3 回答 3

4

根据您的示例代码,我认为您的问题与您的字面意思略有不同。您实际上并不想覆盖__hash__()- 您只想在线性时间内过滤掉重复项,对吗?因此,您需要为每个字典确保以下内容:1)每个键值对都被表示,2)它们以稳定的顺序表示。您可以使用键值对的排序元组,但我建议使用frozenset. frozensets 是可散列的,它们避免了排序的开销,这应该会提高性能(正如这个答案似乎证实了)。缺点是它们比元组占用更多的内存,所以这里有一个空间/时间的权衡。

此外,您的代码使用集合进行过滤,但这没有多大意义。eval如果您使用字典,则不需要那个丑陋的步骤:

filtered = {frozenset(d.iteritems()):d for d in pile_o_dicts}.values()

或者在 Python 3 中,假设您想要一个列表而不是字典视图:

filtered = list({frozenset(d.items()):d for d in pile_o_dicts}.values())

这些都有点笨重。为了便于阅读,请考虑将其分为两行:

dict_o_dicts = {frozenset(d.iteritems()):d for d in pile_o_dicts}
filtered = dict_o_dicts.values()

另一种方法是元组的有序元组:

filtered = {tuple(sorted(d.iteritems())):d for d in pile_o_dicts}.values()

最后一点:不要repr用于此。评估为相等的字典可以有不同的表示:

>>> d1 = {str(i):str(i) for i in range(300)}
>>> d2 = {str(i):str(i) for i in range(299, -1, -1)}
>>> d1 == d2
True
>>> repr(d1) == repr(d2)
False
于 2012-09-05T23:11:29.977 回答
3

巧妙命名的 pile_o_dicts 可以通过对其项目列表进行排序来转换为规范形式:

 groups = {}
 for d in pile_o_dicts:
     k = tuple(sorted(d.items()))
     groups.setdefault(k, []).append(d)

这会将相同的字典组合在一起。

FWIW,使用技术sorted(d.items())目前在 functools.lru_cache() 的标准库中使用,以便识别具有相同关键字参数的函数调用。IOW,这种技术是久经考验的 :-)

于 2012-09-06T03:07:25.350 回答
2

如果字典都具有相同的键,则可以使用namedtuple

>>> from collections import namedtuple
>>> nt = namedtuple('nt', pile_o_dicts[0])
>>> set(nt(**d) for d in pile_o_dicts)
于 2012-09-05T23:15:31.487 回答