Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想对一些文本文档进行聚类以找到具有相同概念的文档。我已经使用潜在语义分析 (LSA) 完成了语义相似性,但我混淆了我应该为我的目的选择哪种聚类方法。谢谢
您可以使用层次聚类。R 中有一个名为 RClusterpp 的包,它对于大数据的层次聚类非常有效(它进行并行计算)。然后,您可以在可能的范围内为不同数量的集群切割树状图树,并使用交叉表检查集群配置文件。