0

我正在使用 k-means 和欧几里得距离算法来聚类数据(iris.csv)。但是,我无法将它们全部归为正确的组,错误的组中有一些数据。

所以,我只是想知道是否可以 100% 将所有数据聚集到正确的组中?

我心中的另一个问题是选择 k 的最佳标准是什么?

感谢您的帮助。

4

2 回答 2

0

通常在您实际上不知道给定集合的正确组是什么时使用聚类算法。即使您的算法确实对给定训练集中的所有数据进行了正确聚类,但这并不意味着它会正确聚类任何数据。此外,您应该尽量避免过度拟合示例数据,因为这通常会降低性能。

至于选择 k - 有几种算法,最好的一种可能会根据您尝试解决的问题而有所不同。

于 2013-03-20T17:55:56.407 回答
0

K-means 倾向于创建同样大小的凸簇。如果您的集群大小非常不同或形状不规则,则其他一些算法可能具有更好的性能。http://en.m.wikipedia.org/wiki/Cluster_analysis#Clustering_algorithms

于 2013-03-20T21:09:25.753 回答