我想根据相似性对文档进行聚类。
我已经尝试过 ssdeep (相似性哈希),速度非常快,但我被告知 k-means 更快,而 flann 是所有实现中最快的,而且更准确,所以我正在尝试使用 python 绑定的 flann,但我找不到任何示例如何在文本上执行(它只支持数字数组)。
我对这个领域非常陌生(k-means,自然语言处理)。我需要的是速度和准确性。
我的问题是:
- 我们可以使用 KMeans 进行文档相似性分组/聚类吗(Flann 似乎不允许任何文本输入)
- 弗兰是正确的选择吗?如果不是,请建议我支持文本/文档集群的高性能库,它具有 python 包装器/API。
- k-means是正确的算法吗?