0

我想对大型社交网络数据集使用一些聚类方法。问题是如何评估聚类方法。是的,我可以使用一些外部、内部和相关的集群验证方法。我使用归一化互信息(NMI)作为基于合成数据的集群验证的外部验证方法。我通过生成 5 个具有相同数量节点的集群以及每个集群内部的一些强连接链接和集群之间的弱链接来生成一些合成数据集,以检查聚类方法,然后我分析了该合成数据集上的光谱聚类和基于模块化的社区检测方法。我将具有最佳 NMI 的聚类用于我的真实世界数据集,并检查我的算法的误差(成本函数),结果很好。我的成本函数测试方法好吗?或者我还应该再次验证我的真实词集群?

谢谢。

4

1 回答 1

1

尝试不止一种措施。

有十几种集群验证措施,很难预测哪一种最适合某个问题。它们之间的区别尚未真正了解,因此最好咨询多个。

另请注意,如果您不使用标准化度量,则基线可能非常高。因此,这些衡量标准最有用的是说“结果 A 与结果 B 比结果 C 更相似”,但不应将其视为质量的绝对衡量标准。它们是相似性的相对度量。

于 2013-08-19T20:35:23.967 回答