235

Python 中的基本数据结构之一是字典,它允许记录“键”以查找任何类型的“值”。这是在内部作为哈希表实现的吗?如果不是,那是什么?

4

4 回答 4

293

是的,它是一个哈希映射或哈希表。您可以在此处阅读 Tim Peters 所写的对 python 的 dict 实现的描述。

这就是为什么你不能使用“不可散列”的东西作为字典键的原因,比如列表:

>>> a = {}
>>> b = ['some', 'list']
>>> hash(b)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: list objects are unhashable
>>> a[b] = 'some'
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: list objects are unhashable

您可以阅读有关哈希表的更多信息检查它是如何在 python 中实现的,以及它为什么以这种方式实现

于 2008-09-22T13:23:00.203 回答
44

Python 字典必须比 hash() 上的表查找更多。通过蛮力实验,我发现了这种哈希冲突

>>> hash(1.1)
2040142438
>>> hash(4504.1)
2040142438

然而它并没有破坏字典:

>>> d = { 1.1: 'a', 4504.1: 'b' }
>>> d[1.1]
'a'
>>> d[4504.1]
'b'

完整性检查:

>>> for k,v in d.items(): print(hash(k))
2040142438
2040142438

可能除了 hash() 之外还有另一个查找级别,可以避免字典键之间的冲突。或者也许 dict() 使用不同的哈希。

(顺便说一下,这在 Python 2.7.10 中。在 Python 3.4.3 和 3.5.0 中的情况相同,但在hash(1.1) == hash(214748749.8).)

(我在 Python 3.9.6 中没有发现任何冲突。由于哈希值更大——hash(1.1) == 230584300921369601我估计我的桌面需要一千年才能找到一个。所以我会在这个问题上回复你。)

于 2015-11-01T04:01:49.343 回答
22

是的。在内部,它被实现为基于 Z/2 上的原始多项式的开放散列(source)。

于 2008-09-22T13:25:27.700 回答
8

扩展 nosklo 的解释:

a = {}
b = ['some', 'list']
a[b] = 'some' # this won't work
a[tuple(b)] = 'some' # this will, same as a['some', 'list']
于 2008-09-22T15:09:43.677 回答