根据这篇论文,用于分类和索引的极快文本特征提取SpeedyFX 是一种非常快速的散列算法。
我想知道是否有人有这个算法的 Java 实现。
最初的实现在 UTF-8 和 Unicode 处理方面有点缺陷。它只考虑Unicode 平面 0,而平面 1 和 2 中实际上有许多单词字符(并且截至 2012 年 12 月 28 日,平面 3-16 中没有单词字符)。
FWIW,我已经在 C 中实现了 SpeedyFx 算法,作为 Perl 模块Text::SpeedyFx的一部分。对于 UTF-8 和 ISO 8859-1 编码的字符串,对我来说真的很棒。