k-means - k 表示交叉验证

Question

我得到了一份包含贫困、人口等数据的美国县列表，并使用 ak 均值算法进行了聚类。我按如下方式交叉验证了聚类：我将县分为训练集和保留集。在聚类过程中我将贫困特征排除在外，然后对于坚持集中的每个县，我找到最近的聚类，然后从最近聚类的平均贫困中减去县的贫困。最后，我将上面的差平方，对坚持集中的每个县求和，然后除以坚持集中的县数。然后我也做了同样的事情，但这次贫困特征参与了聚类。我观察到错误明显低于以前，但我读到这在某种程度上是“作弊”。

score 1 · Accepted Answer

您正在尝试使用贫困属性来确定贫困属性。

作为另一个示例，假设您有一组汽车。您知道汽车的某些特征增强了它具有某种颜色的可能性。您不知道汽车的颜色（训练集除外），但您知道许多其他属性，例如型号和年份。您使用训练集构建聚类模型，然后将其应用于主集。集群现在应该包含相同颜色的汽车。

您事先不知道颜色，但您（希望）能够使用其他属性根据颜色对汽车进行聚类。

如果您使用颜色属性来构建您的聚类模型，您将一事无成。您将使用颜色来聚类相似颜色的汽车。感人的。你会获得什么知识？

k-means - k 表示交叉验证

1 回答 1

Related

Reference