我正在使用mcl进行聚类。我试图通过调整膨胀参数 I 和我引入的几个其他参数来“优化”关于质量分数的聚类。
我对此优化有疑问:
1)如果我错了,请纠正我:当我们尝试预测新输入的类时使用交叉验证。因此,当所有输入都已知并且我们只是尝试重新组合它们时,这个概念在聚类的上下文中是没有意义的
2)我计划用我的不同参数集进行实验,然后选择那些给我最好结果的参数。但是,我阅读 clm close
了使用层次聚类并遍历树以找到最佳参数的可能性。我不熟悉层次聚类,但是这种方法如何胜过仅测试不同的参数?
至于(1)我同意。至于(2),这是一个非常专业的评论,在开始一般探索性(集群)分析时不需要考虑。
然而,关于 (1) 的注释。如果您的数据已经分类(每个节点都带有一个标签),那么您可以将此分类视为一个聚类,并使用诸如信息变化或拆分/连接距离之类的标准来查看数据聚类与分类的匹配程度。这在这样的分类可用于一个特定数据集但不适用于其他数据集的情况下可能很有用。那么值得意识到一致性比精确性更重要。也就是说,数据聚类可以是分类的(接近)超级聚类或子聚类,并且在这方面是一致的(参见https://stats.stackexchange.com/questions/24961/comparing-clusterings-rand-索引与信息变化)。