2

根据这篇论文,用于分类和索引的极快文本特征提取SpeedyFX 是一种非常快速的散列算法。

我想知道是否有人有这个算法的 Java 实现。

4

1 回答 1

2

最初的实现在 UTF-8 和 Unicode 处理方面有点缺陷。它只考虑Unicode 平面 0,而平面 1 和 2 中实际上有许多单词字符(并且截至 2012 年 12 月 28 日,平面 3-16 中没有单词字符)。

FWIW,我已经在 C 中实现了 SpeedyFx 算法,作为 Perl 模块Text::SpeedyFx的一部分。对于 UTF-8 和 ISO 8859-1 编码的字符串,对我来说真的很棒。

于 2012-12-28T15:55:56.320 回答