为了加速测试字谜字符串的快速输出行为,我提出了一个基于素数的散列方案——尽管看起来我不是第一个。
基本思想是将字母映射到素数,并计算这些素数的乘积。任何字母的重新排列都会产生相同的结果,如果结果可以任意大,那么其他字母的组合都不会产生相同的结果。
我最初设想这只是一个哈希。最终产品会溢出并开始为其他字母组合起别名。然而,通过将最常见的字母映射到最小的素数,乘积增长缓慢并且通常可以完全避免溢出。在这种情况下,我们得到了一个完美的哈希值,无需额外测试即可给出明确的正面和负面结果。
值得注意的是,它在溢出之前并没有非常有效地填充编码空间。任何结果都不会有任何大于 103 的素数,并且小素数的分布是固定的,不一定与字母频率非常匹配。
现在我想知道是否有比这更好的东西。用完美的散列覆盖更多结果并在其余情况下具有强分布的东西。
我能想到的最密集的编码方案是对字母进行排序,然后用熵编码器将它们打包成一个单词。在这个方案中,字母频率显然会因为应用到每个位置的范围限制而有很大的偏差(例如,以 z 开头的排序数组的可能性大大低于以 az 结尾的排序数组的可能性)。
不过,这听起来像是大量的工作——而且我看不出它保证在溢出情况下提供良好的分布。
也许有一组更好的因素可以将字母映射到,以及检测混叠风险何时开始的更好方法。还是不依赖乘法的散列方案?容易计算的东西?
所以那是:
- 尽可能多的真实世界输入的完美哈希(对于一些合理的位数)。
- 剩余情况的强散列,具有区分两种情况的方法。
- 易于计算。
英语语言限制(26 个字母,典型的类似英语的单词结构)就可以了。多字节编码方案是另一个问题。
首选 C 代码,因为我理解它。