5

我正在解析数亿条 JSON 记录,并将每个记录的相关组件存储在dict. 问题是,由于我正在处理的记录数量,python 被迫dict多次增加 ' 的基础哈希表的大小。这导致必须重新散列大量数据。大量的重新散列本身似乎花费了大量时间。因此,我想知道是否有办法在dict's 的底层哈希表上设置最小大小,以便最小化调整大小操作的数量。

我已经从这个问题的答案中阅读关于优化 python 的这篇文章,但找不到如何更改 a的哈希表的初始大小。如果有人可以帮助我解决这个问题,我将不胜感激。dictdict

谢谢

4

1 回答 1

2

如果你这样做:

a = dict.fromkeys(range(n))

它将强制字典大小容纳 n 个项目。之后速度很快,但需要 3 秒。

于 2012-07-06T02:38:56.970 回答