1

我有一个关于使用聚类方法与使用分布拟合相同数据的问题。

假设我有一个具有 2 个特征(feat_A 和feat_B)的数据集,并且假设我使用聚类算法将数据划分为最佳数量的集群......比如 3。

我的目标是为每个输入数据 [feat_Ai,feat_Bi] 分配该点属于集群 1 2 3 的概率(或类似的东西)。

一个。第一种聚类方法:

我将数据聚类在 3 个聚类中,并根据与聚类中心的距离为每个点分配属于聚类的概率。

湾。使用混合模型的第二种方法:

我将混合模型或混合分布拟合到数据中。使用期望最大化 (EM) 算法将数据拟合到分布,该算法将后验概率分配给每个观察值的每个分量密度。通过选择最大化后验概率的组件来分配集群。


在我的问题中,我找到了带有数据子样本的聚类中心(或者如果使用方法b. ,我会拟合模型)。然后我必须为许多其他数据分配一个概率......我想知道在存在新数据的情况下哪种方法更适合用于仍然有意义的分配。

我会选择一种聚类方法,例如kmean,因为:

  1. 如果新数据来自与用于创建混合模型的分布不同的分布,则分配可能不正确。

  2. 有了新数据,后验概率会发生变化。

  3. 聚类方法使聚类的方差最小化以找到一种最优的分离边界,混合模型考虑数据的方差来创建模型(不确定将形成的聚类是否以最优的方式分离)方法)。

有关数据的更多信息:

不应假定功能是依赖的。Feat_A 表示体育活动的持续时间 Feat_B 步数 原则上,我们可以说随着活动持续时间的延长,步数会增加,但并非总是如此。

请帮助我思考,如果您有任何其他观点,请告诉我..

4

0 回答 0