我试图使用KMeansClustering方法对一些文档进行聚类,并成功创建了集群。我保存了与特定文档相对应的集群 ID 以供推荐。因此,每当我想推荐与特定文档相似的文档时,我都会查询特定集群中的所有文档,并从集群中返回n 个随机文档。但是,从集群返回任何随机文档似乎都不合适,我在某处读到我们应该返回最接近相关文档的文档。
因此,我开始搜索计算文档之间的距离,并偶然发现了RowSimilarity方法,该方法为每个文档返回 10 个最相似的文档,按距离排序。现在,这种方法依赖于 LogLikelihood 等相似性度量来计算文档之间的距离。
现在我的问题是这个。鉴于这两种方法都使用相似性距离度量来计算文档之间的距离,聚类如何比 RowSimilarity 更好/更差?
我想要实现的是,我试图根据产品的标题和其他文本属性对产品进行聚类,以推荐类似的产品。任何帮助表示赞赏。