我得到了一份包含贫困、人口等数据的美国县列表,并使用 ak 均值算法进行了聚类。我按如下方式交叉验证了聚类:我将县分为训练集和保留集。在聚类过程中我将贫困特征排除在外,然后对于坚持集中的每个县,我找到最近的聚类,然后从最近聚类的平均贫困中减去县的贫困。最后,我将上面的差平方,对坚持集中的每个县求和,然后除以坚持集中的县数。然后我也做了同样的事情,但这次贫困特征参与了聚类。我观察到错误明显低于以前,但我读到这在某种程度上是“作弊”。
问问题
2145 次