1

我正在尝试使用随机平均来实现 hyperloglog 计数算法。为此,我需要许多独立的通用散列函数来散列不同子流中的项目。

我发现hashlib中只有几个哈希函数可用, 我似乎没有办法提供种子或其他东西?我正在考虑为不同的子流使用不同的盐。

4

1 回答 1

1

您可能不需要不同的哈希函数。该问题的一个常见解决方案是仅使用部分哈希来计算 HyperLogLog rho 统计量,而另一部分用于选择子流。如果您使用良好的散列函数(例如 murmur3),它会有效地表现为多个独立的函数。

请参阅此处的“随机平均”部分以获取对此的解释: https ://research.neustar.biz/2012/10/25/sketch-of-the-day-hyperloglog-cornerstone-of-a-big-data-基础设施/

于 2016-04-20T11:35:14.830 回答