3

我对matlab很陌生,我很好奇如何做到这一点:

我有一个相当大的(27000x11)矩阵,第 8 列包含一个有时会发生变化但对于 2000 行(不一定是连续的)保持不变的数字。

我想计算第 8 列具有相同值的那些行的第 3 列条目的平均值。这适用于第 8 列的每个值。我还想将第 3 列的平均值绘制为第 8 列值的函数,但如果我能得到一个包含 [mean_of_3rd,8th] 的新矩阵 (2x2),我可以这样做。

例如:(为方便起见,使用较小的矩阵)

1 2 3 4 5
3 7 5 3 2
1 3 2 5 3
4 5 7 5 8
2 4 7 4 4

由于第 4 列在第 1 行和第 5 行中具有相同的值,我想计算 2 和 4 的平均值(第 2 列的相应元素,斜体粗体)并将其与第 4 列的值一起放入另一个矩阵中。3 和 5(粗体)相同,因为第 4 列对这两者具有相同的值。

3 4
4 5

等等......这可能很简单吗?

4

3 回答 3

4

使用全能的,未充分利用的accumarray

此行为您提供了由第 2 列累积的第 4 列的平均值:

means = accumarray( A(:,4) ,A(:,2),[],@mean)

此行为您提供每组中的元素数量:

count = accumarray( A(:,4) ,ones(size(A(:,4))))

现在,如果您只想过滤至少出现一次的那些:

>> filtered = means(count>1)

filtered =

     3
     4

这仅适用于第 4 列中的正整数。


计算每个集合中元素数量的另一种可能性:

 count = accumarray( A(:,4) ,A(:,4),[],@numel)
于 2012-10-08T20:23:41.790 回答
2

一种基于 Andrey 和 Rody 的想法的略微改进的方法。我们不能直接使用 accumarray,因为数据是实数,而不是整数。但是,我们可以使用 unique 来查找重复条目的索引。然后我们对整数进行操作。

% get unique entries in 4th column
[R, I, J] = unique(A(:,4));

% count the repeating entries: now we have integer indices!
counts = accumarray(J, 1, size(R));

% sum the 2nd column for all entries
sums   = accumarray(J, A(:,2), size(R));

% compute means
means  = sums./counts;

% choose only the entries that show more than once in 4th column
inds   = counts>1;
result = [means(inds) R(inds)];

以下合成数据的时间比较:

A=randi(100, 1000000, 5);

% Rody's solution
Elapsed time is 0.448222 seconds.

% The above code
Elapsed time is 0.148304 seconds.
于 2012-10-09T08:32:40.017 回答
1

我的官方回答:

A4 = A(:,4);
R = unique(A4);   

means = zeros(size(R));
inds  = false(size(R));

for jj = 1:numel(R)        
    I = A4==R(jj);
    sumI = sum(I);        
    inds(jj)  = sumI>1;
    means(jj) = sum(A(I,2))/sumI;        
end

result = [means(inds) R(inds)];

这是因为以下原因。以下是我们以分析形式提出的所有替代方案:

%# sample data
A = [
    1 2 3 4 5
    3 7 5 3 2
    1 3 2 5 3
    4 5 7 5 8
    2 4 7 4 4];

%# accumarray
%# works only on positive integers in A(:,4)
tic
for ii = 1:1e4
    means = accumarray( A(:,4) ,A(:,2),[],@mean);
    count = accumarray( A(:,4) ,ones(size(A(:,4))));
    filtered = means(count>1);
end
toc

%# arrayfun
%# works only on integers in A(:,4)
tic
for ii = 1:1e4
    B = arrayfun(@(x) A(A(:,4)==x, 2), min(A(:,4)):max(A(:,4)), 'uniformoutput', false);
    filtered = cellfun(@mean, B(cellfun(@(x) numel(x)>1, B)) );    
end
toc


%# ordinary loop
%# works only on integers in A(:,4)    
tic
for ii = 1:1e4

    A4 = A(:,4);
    R = min(A4):max(A4);

    means = zeros(size(R));
    inds  = false(size(R));
    for jj = 1:numel(R)
        I = A4==R(jj);
        sumI = sum(I);        
        inds(jj) = sumI>1;
        means(jj) = sum(A(I,2))/sumI; 
    end

    filtered = means(inds);   
end
toc

结果:

Elapsed time is 1.238352 seconds.  %# (accumarray)
Elapsed time is 7.208585 seconds.  %# (arrayfun + cellfun)
Elapsed time is 0.225792 seconds.  %# (for loop)

普通的循环显然是要走的路。

注意mean内部循环中没有。这是因为mean不是 Matlab 内置函数(至少在 R2010 上),因此在循环中使用它会使循环不适合 JIT 编译,这会使其速度减慢 10 倍以上。使用上面的形式会加速循环几乎是accumarray求解速度的 5.5 倍。

根据您的评论判断,将循环更改为处理所有条目A(:,4)(不仅仅是整数)几乎是微不足道的:

A4 = A(:,4);
R = unique(A4);   

means = zeros(size(R));
inds  = false(size(R));
for jj = 1:numel(A4)
    I = A4==R(jj);
    sumI = sum(I);        
    inds(jj) = sumI>1;
    means(jj) = sum(A(I,2))/sumI;
end

filtered = means(inds); 

我将复制粘贴到顶部作为我的官方答案:)

于 2012-10-09T04:54:09.807 回答