0

我在论文中使用 WEKA,并且有超过 1000 行数据。该数据库包括人口统计信息(年龄、位置、状态等),然后是产品名称(值 1 或 0)。最终结果是一个推荐系统。我使用了两种聚类方法,K-MeansDBScan

使用时K-means我尝试了 3 个不同数量的集群,而使用时DBscan我选择了 3 个不同的 epsilon(Epsilon 3 = 48 个集群,忽略了 17% 的数据,Epsilone 2.5 = 19 个集群,而集群 0 包含 229 个项目,忽略了 6%。)意思是我有相同数据的 6 个不同聚类结果。

如何选择最适合我的数据的内容?

4

1 回答 1

1

什么是“最好”?

正如一些聪明人注意到的那样:

聚类的有效性通常在旁观者的眼中

聚类没有客观上的“更好”,或者您没有进行聚类分析。

即使结果实际上在某些数学度量上“更好”,例如分离、轮廓,甚至在使用标签进行监督评估时 - 它仍然只是在优化某些数学目标方面更好,而不是针对您的用例

K-means 找到给定 k 的局部最优平方和分配。(如果增加 k,则存在更好的分配!) DBSCAN(实际上正确拼写为全大写)总是为给定的 MinPts/Epsilon 组合找到最佳的密度连接分量。然而,两者都只是针对某些数学标准进行优化。除非此标准符合您的要求,否则它毫无价值。所以没有最好的,直到你知道你需要什么。但是,如果您知道自己需要什么,就不需要进行聚类分析。

那么该怎么办?

尝试不同的算法和不同的参数,并使用您的领域知识分析输出,如果它们可以帮助您解决您要解决的问题。如果他们帮助您解决问题,那么他们很好。如果他们没有帮助,请再试一次。

随着时间的推移,你会积累一些经验。例如,如果平方和对您的域没有意义,请不要使用 k-means。如果您的数据没有有意义的密度,请不要使用基于密度的聚类,例如 DBSCAN。并不是这些算法失败了。他们只是不解决您的问题,他们解决了您不感兴趣的不同问题。而且他们可能真的很擅长解决其他问题......

于 2013-02-02T22:47:17.827 回答