我已经使用 k-means 聚类建立了一个分割模型。
谁能描述将新数据分配到这些细分市场的过程?
目前,我正在应用与构建模型相同的转换/标准化/异常值,然后计算欧几里得距离。最小距离是记录落入的段。
但是,我看到大多数人属于 1 个特定部分,我想知道我是否在此过程中遗漏了什么?
谢谢
我已经使用 k-means 聚类建立了一个分割模型。
谁能描述将新数据分配到这些细分市场的过程?
目前,我正在应用与构建模型相同的转换/标准化/异常值,然后计算欧几里得距离。最小距离是记录落入的段。
但是,我看到大多数人属于 1 个特定部分,我想知道我是否在此过程中遗漏了什么?
谢谢
根据到最近平均值的欧几里德距离对新观测值进行分类可能适用于某些场景,但它忽略了原始集群的形状/大小。
解决此问题的一种方法是使用原始集群数据来帮助对每个新观察进行分类(例如,使用 KNN http://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm)
作为替代方案,您可以考虑使用替代聚类技术,例如高斯混合:
http ://en.wikipedia.org/wiki/Mixture_model
http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/混合.html
使用它,您不仅可以获得每个集群的平均值,还可以获得方差。对于每个新的观察,您可以计算它属于每个集群的概率。该概率将考虑原始集群大小/形状。使用类型类型的“软”方法也更好,因为它告诉您每个新观察值属于每个集群的强度,并且您可以将观察值标记为离所有集群大于一定数量标准偏差的异常值.