0

我一直在研究论文中回顾期望最大化(EM),例如:

http://pdf.aminer.org/000/221/588/fuzzy_k_means_clustering_with_crisp_regions.pdf

我有一些疑问,我还没有弄清楚。例如,如果每个数据点有很多维度,会发生什么?

例如,我有以下具有 6 个数据点和 4 个维度的数据集:

>D1 D2 D3  D4   
5, 19, 72, 5  
6, 18, 14, 1  
7, 22, 29, 4   
3, 22, 51, 1   
2, 21, 89, 2   
1, 12, 28, 1

这意味着为了计算期望步骤,我是否需要计算 4 个标准差(每个维度一个)?

假设k = 3,我是否还必须计算每个集群的方差(不知道是否有必要根据论文中的公式......)或者只是每个维度的方差(4个属性)?

4

1 回答 1

0

通常,您使用协方差矩阵,其中还包括方差。

但这实际上取决于您选择的模型。最简单的模型根本不使用方差。更复杂的模型只有一个方差值,即所有维度的平均方差。接下来,您可以独立地为每个维度设置单独的方差;最后但并非最不重要的一个完整的协方差矩阵。这可能是流行使用的最灵活的 GMM。

根据您的实施,可能还有更多。

来自 R 的 mclust 文档:

单变量混合

“E” = 等方差(一维)
“V” = 可变方差(一维)

多元混合

"EII" = 球形,等体积
"VII" = 球形,不等体积
"EEI" = 对角线,等体积和形状
"VEI" = 对角线,可变体积,相等形状
"EVI" = 对角线,等体积,不同形状
"VVI " = 对角线,不同的体积和形状
"EEE" = 椭圆体,等体积,形状和方向
"EEV" = 椭圆体,等体积和相同的形状
"VEV" = 椭圆体,相同的形状
"VVV" = 椭圆体,不同的体积,形状, 和方向

单组分

"X" = 单变量正态
"XII" = 球形多元正态
"XXI" = 对角多元正态
"XXX" = 椭圆形多元正态

于 2014-06-21T08:26:06.210 回答