0

如何测量一个特征向量的不同数量实例之间的可分性?例如主向量为 V=[1 1 2 3 4 5 7 8 10 100 1000 99 999 54],不同样本长度的不同组合为 t1=[1 1 2 3 99 1000] 或 t2=[1 10 1000]或 t3=[2 3 4 10 100 99 999 54] 哪一个更可分离且信息更丰富?如果我把它放在 GMM 中,样本较少的向量具有更好的概率,这是不公平的。

train=[1 2 1 2 1 2 100 101 102 99 100 101 1000 1001 999 1003]; 
No_of_Iterations=10;
No_of_Clusters=3;
[mm,vv,ww]=gaussmix(train,[],No_of_Iterations,No_of_Clusters);
test1=[1 1 1 2 2 2 100 100 100 101 1000 1000 1000];
test2=[1 1 2 2 100 99 1000 999];
test3=[1 100 1000];
[lp,rp,kh,kp]=gaussmixp(test1,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test2,mm,vv,ww);
sum(lp)
[lp,rp,kh,kp]=gaussmixp(test3,mm,vv,ww);
sum(lp)

结果如下:

答案=

-8.0912e+05

答案=

-8.1782e+05

答案=

-5.0381e+05

如果您能帮助我,我将不胜感激。

4

1 回答 1

0

如何测量一个特征向量的不同数量实例之间的可分性?

“可分离性”的概念并不严格。如果数据是线性可分的,则可以将边距的大小定义为“可分性”,但在不可线性分的数据的情况下,即使对于“分离这些数据有多容易”的问题也没有明确的答案,因为它是大量模型相关问题 - 如果您想将它与具有某些特定内核的 SVM 分开,答案将完全不同,如果您想使用决策树等,答案将完全不同。这种分析有许多可能的概率、几何和统计方法,但这不是问答网站的地方,这是由熟练的研究人员执行的艰难而持久的数据分析过程。

哪一个更可分离且信息量更大?

取决于可分离性和信息性的确切定义。这不是一个可以以问答方式回答的问题,这是一个研究课题,而不是一个需要解决的问题。

如果我把它放在 GMM 中,样本较少的向量具有更好的概率,这是不公平的。

您已经提出了有关它的问题并收到了说明为什么它“公平”的答案。

您可以尝试在http://stats.stackexchange.com上提问,但您宁愿听到类似的答案——“这取决于”并且不可能“手动”回答这样的问题。

于 2013-08-30T06:59:42.203 回答