0

我得到了一份包含贫困、人口等数据的美国县列表,并使用 ak 均值算法进行了聚类。我按如下方式交叉验证了聚类:我将县分为训练集和保留集。在聚类过程中我将贫困特征排除在外,然后对于坚持集中的每个县,我找到最近的聚类,然后从最近聚类的平均贫困中减去县的贫困。最后,我将上面的差平方,对坚持集中的每个县求和,然后除以坚持集中的县数。然后我也做了同样的事情,但这次贫困特征参与了聚类。我观察到错误明显低于以前,但我读到这在某种程度上是“作弊”。

4

1 回答 1

1

您正在尝试使用贫困属性来确定贫困属性。

作为另一个示例,假设您有一组汽车。您知道汽车的某些特征增强了它具有某种颜色的可能性。您不知道汽车的颜色(训练集除外),但您知道许多其他属性,例如型号和年份。您使用训练集构建聚类模型,然后将其应用于主集。集群现在应该包含相同颜色的汽车。

您事先不知道颜色,但您(希望)能够使用其他属性根据颜色对汽车进行聚类。

如果您使用颜色属性来构建您的聚类模型,您将一事无成。您将使用颜色来聚类相似颜色的汽车。感人的。你会获得什么知识?

于 2012-12-09T10:55:22.537 回答