3

我有两个矩阵 X 和 Y。它们都代表 3D 空间中的多个位置。X 是一个 50*3 的矩阵,Y 是一个 60*3 的矩阵。

我的问题:为什么在 pdist2() 的输出上应用均值函数并结合 'Mahalanobis' 不会给出使用 mahal() 获得的结果?

有关我在下面尝试做的事情的更多详细信息,以及我用来测试它的代码。

假设矩阵 Y 中的 60 个观测值是在某种实验操作之后获得的。我正在尝试评估这种操作是否对 Y 中观察到的位置产生重大影响。因此,我曾经pdist2(X,X,'Mahalanobis')将 X 与 X 进行比较以获得基线,然后将 X 与 Y 进行比较(X 为参考矩阵:)pdist2(X,Y,'Mahalanobis'),并且我绘制了两个分布以查看重叠。

随后,我计算了两个分布和 95% CI 的平均马氏距离,并进行了 t 检验和 Kolmogorov-Smirnoff 检验来评估分布之间的差异是否显着。这对我来说似乎很直观,但是,当使用 mahal() 进行测试时,我得到不同的值,尽管参考矩阵是相同的。我不明白计算马氏距离的两种方法之间的区别究竟是什么。

评论太长@3lectrologos:你的意思是:d(I) = (Y(I,:)-mu) inv(SIGMA) (Y(I,:)-mu)'?这只是计算 mahalanobis 的公式,因此对于 pdist2() 和 mahal() 函数应该是相同的。我认为 mu 是一个标量,而 SIGMA 是一个基于 pdist2() 和 mahal() 中的整体参考分布的矩阵。仅在 mahal 中,您将样本集的每个点与参考分布的点进行比较,而在 pdist2 中,您将基于参考分布进行成对比较。实际上,考虑到我的目的,我认为我应该选择 mahal() 而不是 pdist2()。我可以根据参考分布解释成对距离,但我认为这不是我需要的。

% test pdist2 vs. mahal in matlab

% the purpose of this script is to see whether the average over the rows of E equals the values in d...

% data
X = []; % 50*3 matrix, data omitted
Y = []; % 60*3 matrix, data omitted


% calculations
S = nancov(X);

% mahal()
d = mahal(Y,X); % gives an 60*1 matrix with a value for each Cartesian element in Y (second matrix is always the reference matrix)

% pairwise mahalanobis distance with pdist2()
E = pdist2(X,Y,'mahalanobis',S); % outputs an 50*60 matrix with each ij-th element the pairwise distance between element X(i,:) and Y(j,:) based on the covariance matrix of X: nancov(X)
%{
 so this is harder to interpret than mahal(), as elements of Y are not just compared to the "mahalanobis-centroid" based on X,
% but to each individual element of X
% so the purpose of this script is to see whether the average over the rows of E equals the values in d...
%}

F = mean(E); % now I averaged over the rows, which means, over all values of X, the reference matrix

mean(d)
mean(E(:)) % not equal to mean(d)
d-F' % not zero

% plot output
figure(1)
plot(d,'bo'), hold on
plot(mean(E),'ro')
legend('mahal()','avaraged over all x values pdist2()')
ylabel('Mahalanobis distance')

figure(2)
plot(d,'bo'), hold on
plot(E','ro')
plot(d,'bo','MarkerFaceColor','b')
xlabel('values in matrix Y (Yi) ... or ... pairwise comparison Yi. (Yi vs. all Xi values)')
ylabel('Mahalanobis distance')
legend('mahal()','pdist2()')
4

3 回答 3

1

注意

mahal(X,Y)

相当于

pdist2(X,mean(Y),'mahalanobis',cov(Y)).^2

于 2014-03-06T06:13:41.833 回答
1

两者之间的一个直接区别是在计算距离之前从每个点中mahal减去样本平均值。XY

尝试类似E = pdist2(X,Y-mean(X),'mahalanobis',S);的方法,看看它是否会给您带来与mahal.

于 2013-11-12T16:12:16.963 回答
0

好吧,我想有两种不同的方法可以计算两个数据集群之间的马氏距离,就像您在上面解释的那样:1)您将样本集中的每个数据点与从参考分布计算的 mu 和 sigma 矩阵进行比较(尽管标记一个集群样本集合和其他参考分布可以是任意的),从而计算从每个点到参考分布的所谓马氏质心的距离。2)您将矩阵 Y 的每个数据点与矩阵 X 的每个数据点进行比较,其中 X 是参考分布(mu 和 sigma 仅从 X 计算)

距离的值会有所不同,但我猜在使用方法 1 或 2 时保留了集群之间不同的顺序?实际上,我想知道当将 10 个不同的簇与参考矩阵 X 或彼此进行比较时,使用方法 1 或方法 2 时,差异的顺序是否会有所不同?此外,我无法想象一种方法错误而另一种方法错误的情况。虽然方法 1 在某些情况下看起来更直观,比如我的。

于 2013-11-12T17:36:39.620 回答