我对使用 MinHash 和 banding 技术对集合进行聚类的方式存在很大疑问。
我假设阅读的每个人都对 MinHash 有很好的了解,所以我不会定义我使用的大多数术语。
我的目标是使用 MinHash 根据签名的相似性对用户进行聚类。在本地的非带状设置中,这将是微不足道的:如果它们的签名哈希相同,则它们进入同一个集群。
如果我们将签名分成带状并独立处理它们,我可以像我之前所说的那样对待一个带,并为每个带生成一组集群。我的问题是:我应该如何聚合这些集群?如果它们至少有一个共同元素,就合并它们?还是我应该做一些不同的事情?
谢谢