我需要一个用于文本流聚类的轻量级工具。轻量级,因为它没有记忆,因此它可以记住以前的文本条目。这里的文本流意味着连续输入字母数字和半结构化的句子/短语,例如:任何应用程序的日志。基于相似性的聚类意味着算法应该将具有模式相似性的文本分组。例如: text1 = 'aaababac' 和 text2 = 'aaaaabac' 应该组合在一起,因为它们之间只有一个字符不同。场景是:首先出现 text1,算法应该给它一个索引。然后出现 text2 现在算法采用相同的方法给它一个索引。但条件是两个索引应该彼此靠近,并且在处理 text2 时,算法不知道早期文本中出现了什么。它是一种基于模式相似性的散列。
现在我找不到任何有用的东西。我发现的最佳解决方案是 simhash。 http://matpalm.com/resemblance/simhash/