0

为了加速测试字谜字符串的快速输出行为,我提出了一个基于素数的散列方案——尽管看起来我不是第一个

基本思想是将字母映射到素数,并计算这些素数的乘积。任何字母的重新排列都会产生相同的结果,如果结果可以任意大,那么其他字母的组合都不会产生相同的结果。

我最初设想这只是一个哈希。最终产品会溢出并开始为其他字母组合起别名。然而,通过将最常见的字母映射到最小的素数,乘积增长缓慢并且通常可以完全避免溢出。在这种情况下,我们得到了一个完美的哈希值,无需额外测试即可给出明确的正面和负面结果。

值得注意的是,它在溢出之前并没有非常有效地填充编码空间。任何结果都不会有任何大于 103 的素数,并且小素数的分布是固定的,不一定与字母频率非常匹配。

现在我想知道是否有比这更好的东西。用完美的散列覆盖更多结果并在其余情况下具有强分布的东西。

我能想到的最密集的编码方案是对字母进行排序,然后用熵编码器将它们打包成一个单词。在这个方案中,字母频率显然会因为应用到每个位置的范围限制而有很大的偏差(例如,以 z 开头的排序数组的可能性大大低于以 az 结尾的排序数组的可能性)。

不过,这听起来像是大量的工作——而且我看不出它保证在溢出情况下提供良好的分布。

也许有一组更好的因素可以将字母映射到,以及检测混叠风险何时开始的更好方法。还是不依赖乘法的散列方案?容易计算的东西?

所以那是:

  • 尽可能多的真实世界输入的完美哈希(对于一些合理的位数)。
  • 剩余情况的强散列,具有区分两种情况的方法。
  • 易于计算。

英语语言限制(26 个字母,典型的类似英语的单词结构)就可以了。多字节编码方案是另一个问题。

首选 C 代码,因为我理解它。

4

2 回答 2

1

如果您使用大小为 m 的字母表的 n 位散列,则可以使用我在此处描述的方法为最长 (nm) 个字符的字谜获得唯一散列。这使得碰撞检测变得不必要,但它确实会根据字母表的大小和可用空间限制您的字数。

为了允许任何长度的单词,我将使用 n-1 位对长度不超过 (nm-1) 个字符的单词进行哈希处理,并保存最后一位以表示该单词是 m 个字符或更长。在这些情况下,您可以将剩余的 n-1 位用于您的素数或其他散列算法,但当然,只要您在这些存储桶中有多个单词,您就必须进行冲突检测。由于在现实世界的应用程序中,大多数单词将占据较短的单词长度,因此您将大大减少较长单词所需的碰撞检测。

于 2013-08-11T17:30:53.050 回答
0

在这里实现了flancor的答案: https ://github.com/sh1boot/anagram/blob/master/bitgram.c

使用http://ftp.debian.org/debian/pool/main/s/scowl/wbritish_7.1-1_all.deb作为字典,我得到以下比例的完美代码(来自哈希比较的正负匹配) 使用这些编码方案:

order  | frequency|  alphabet| frequency|  alphabet| frequency
code   |    prime |    unary |    unary |  huffman |  huffman
-------|----------|----------|----------|----------|----------
64-bit |   93.95% |  100.00% |  100.00% |  100.00% |  100.00%
32-bit |   24.60% |   69.14% |   74.23% |   86.57% |   90.58%
28-bit |   15.20% |   41.75% |   60.27% |   68.16% |   74.34%
24-bit |    8.21% |   13.14% |   38.55% |   42.67% |   50.34%
20-bit |    3.72% |    3.35% |   16.73% |   19.41% |   25.59%
16-bit |    1.31% |    0.82% |    4.86% |    5.51% |    9.18%

这表明位压缩直方图编码的任何变体都可以在完美的 64 位散列中捕获整个字典,在 32 位散列中捕获超过三分之二的字典;而主要产品方案即使在 64 位中也难以达到 100%,甚至无法覆盖 32 位散列中字典的四分之一。

不过,这个列表确实包含很多撇号,并且几乎所有(但不是全部)64 位未命中都包括撇号。将该字符放在频率表中的适当位置可能会有所帮助。

一些额外的测试:

频率/霍夫曼,溢出:

88aff7eb53ef9940: Pneumonoultramicroscopicsilicovolcanoconiosis

频率/霍夫曼,64 位完美:

17415fbc30c2ebf7: Chargoggagoggmanchauggagoggchaubunagungamaugg
018a6b5dda873fba: Supercalifragilisticexpialidocious
00021ae1bcf50dba: Pseudopseudohypoparathyroidism
00070003dd83b5fb: Floccinaucinihilipilification
00002b800ebbdf7a: Antidisestablishmentarianism
000006c6ab75b3f9: Honorificabilitudinitatibus
0000000421b2ad94: glyptoperichthys
0000000201b2ad94: pterygoplichtys

可能的情况是,应该针对可能落在边界附近的单词进行调整,因为它们可能具有强烈影响其分布的属性(例如,来源语言),并且使较短的单词更长并不重要,直到他们溢出。

于 2013-08-16T11:44:51.180 回答