使用 10 个字符的哈希来识别电子邮件地址有多可靠?
MailChimp 为电子邮件地址提供 10 个字符的字母数字 ID。10 个字符 4 位,每个 40 位,略超过一万亿。也许对于像 MailChimp 这样规模的企业来说,这为唯一的索引空间提供了合理的空间,并且他们有一个包含所有可能电子邮件的表,并使用 40 位数字进行索引。
我喜欢使用相同样式的哈希或编码 ID 来包含在链接中。要决定是使用索引还是散列,需要估计两个有效电子邮件地址导致相同 10 字符散列的概率。
除了原始测试之外,有什么提示可以评估自定义哈希函数吗?