algorithm - 是否可以使用 k-means 将数据聚类到 100% 正确的组中？

Question

我正在使用 k-means 和欧几里得距离算法来聚类数据（iris.csv）。但是，我无法将它们全部归为正确的组，错误的组中有一些数据。

所以，我只是想知道是否可以 100% 将所有数据聚集到正确的组中？

我心中的另一个问题是选择 k 的最佳标准是什么？

感谢您的帮助。

score 0 · Accepted Answer

通常在您实际上不知道给定集合的正确组是什么时使用聚类算法。即使您的算法确实对给定训练集中的所有数据进行了正确聚类，但这并不意味着它会正确聚类任何数据。此外，您应该尽量避免过度拟合示例数据，因为这通常会降低性能。

至于选择 k - 有几种算法，最好的一种可能会根据您尝试解决的问题而有所不同。

score 0 · Accepted Answer

K-means 倾向于创建同样大小的凸簇。如果您的集群大小非常不同或形状不规则，则其他一些算法可能具有更好的性能。http://en.m.wikipedia.org/wiki/Cluster_analysis#Clustering_algorithms

2 回答 2