0

我必须在 rapidminer 中使用不同的性能运算符检查各种聚类算法的性能。为此,我想知道以下几点:

  1. 簇数索引值显示什么是簇数性能算子的输出?
  2. 聚类距离和平均值内的 avg 的小值和大值是什么?在质心距离内意味着好的和坏的聚类?
  3. 我还想检查其他索引值,例如 Dunn 索引、Jaccard 索引、Fowlkes-Mallows 等各种聚类算法。但是 rapidminer 没有任何操作员,为此该怎么办。我没有使用 R 的经验。
4

1 回答 1

0

我复制了我在 Rapid-I 论坛上给出的部分答案

簇数索引是簇的计数 - 你可能会说毫无意义,但当与 DBSCAN 一起使用时,它可能非常有趣http://rapidminernotes.blogspot.co.uk/2010/12/counting-clusters.html

簇和质心距离内的平均值很难解释 - 在这种情况下要搜索的一件事是“肘部标准”。随着聚类数量的变化,请注意有效性度量如何变化并寻找一个“肘部”,它标志着度量的自然进展支配结构的点。

R 有许多有效性度量,值得花一些时间,因为你总是可以从 RapidMiner 调用 R 过程,这使得更容易弄清楚发生了什么。

于 2013-07-18T23:03:47.197 回答