arrays - 对元胞数组的每个元素执行算术运算的最快方法是什么？

Question

假设我想将单元格数组的每个元素A与一个系数相乘k。我可以这样做：

A = cellfun(@(x) k*x, A, 'UniformOutput', false)

但这非常慢。有没有更快更好的方法？元胞数组元素是可变长度向量，因此cell2num不适用。

编辑：基于fpe对 for 循环的建议，这里是一个示例基准。从这个数据开始

A = arrayfun(@(n) rand(n,1), randi(5,1000,1000), 'UniformOutput',false);

上面的cellfun调用需要9.45 seconds一个 for 循环：

A2 = cell(size(A));
for i = 1:size(A,1), for j = 1:size(A,2), A2{i,j} = A{i,j}*k; end; end
A = A2;

，1.67 seconds这是一个显着的改进。我仍然更喜欢快几个数量级的东西。（我也不明白为什么 Matlab 解释器无法像 for 循环一样快速调用 cellfun。它们在语义上是相同的。）

编辑 2： Amro 建议制作一个单独的 for 循环要快得多：

for i = 1:numel(A), A{i} = A{i}*k; end

需要1.11 seconds，如果我pack在它之前运行它来对齐内存就好了0.88 seconds。

实现一个 MEX 函数来做到这一点实际上并没有好多少：0.73 seconds, ( 0.53 secondsafter pack)，这表明在 Matlab 中分配许多小矩阵很慢。

#include "mex.h"

void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray *prhs[]) {
    if (nrhs != 2)
        mexErrMsgTxt("need 2 arguments (Cell, Coefficient)");

    mwSize const* size = mxGetDimensions(prhs[0]);
    int N = mxGetNumberOfDimensions(prhs[0]);

    if (mxGetNumberOfElements(prhs[1]) != 1)
        mexErrMsgTxt("second argument to multcell must be a scalar");

    double coefficient = *mxGetPr(prhs[1]);

    plhs[0] = mxCreateCellArray(N, size);

    int M = mxGetNumberOfElements(prhs[0]);

    for (int i = 0; i < M; i++) {
        mxArray *r = mxGetCell(prhs[0], i);
        mxArray *l = mxCreateNumericArray(mxGetNumberOfDimensions(r),
                                          mxGetDimensions(r),
                                          mxDOUBLE_CLASS,
                                          mxREAL);
        double *rp = mxGetPr(r);
        double *lp = mxGetPr(l);
        int num_elements = mxGetNumberOfElements(r);
        for (int i = 0; i < num_elements; i++)
            lp[i] = rp[i] * coefficient;
        mxSetCell(plhs[0], i, l);
    }
}

然而，作弊一点，并实现一个实际编辑内存的 MEX 函数似乎是从操作中获得合理性能的唯一方法：0.030 seconds. mxUnshareArray这使用了Amro 建议的无证文件。

#include "mex.h"

extern "C" bool mxUnshareArray(mxArray *array_ptr, bool noDeepCopy);

void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray *prhs[]) {
    if (nrhs != 2)
        mexErrMsgTxt("need 2 arguments (Cell, Coefficient)");

    mwSize const* size = mxGetDimensions(prhs[0]);
    int N = mxGetNumberOfDimensions(prhs[0]);

    if (mxGetNumberOfElements(prhs[1]) != 1)
        mexErrMsgTxt("second argument to multcell must be a scalar");

    double coefficient = *mxGetPr(prhs[1]);

    mxUnshareArray(const_cast<mxArray *>(prhs[0]), false);
    plhs[0] = const_cast<mxArray *>(prhs[0]);

    int M = mxGetNumberOfElements(prhs[0]);

    for (int i = 0; i < M; i++) {
        mxArray *r = mxGetCell(prhs[0], i);
        double *rp = mxGetPr(r);
        int num_elements = mxGetNumberOfElements(r);
        for (int i = 0; i < num_elements; i++)
            rp[i] = rp[i] * coefficient;
    }
}

score 3 · Accepted Answer

不完全是答案，但这是一种查看 JIT 编译器和加速器在两种方法（cellfun 与 for-loop）中的影响的方法：

feature('jit', 'off'); feature('accel', 'off');
tic, A = cellfun(@(x) k*x, A, 'UniformOutput', false); toc
tic, for i=1:numel(A), A{i} = A{i}*k; end, toc

feature('jit', 'on'); feature('accel', 'on');
tic, A = cellfun(@(x) k*x, A, 'UniformOutput', false); toc
tic, for i=1:numel(A), A{i} = A{i}*k; end, toc

我得到以下

Elapsed time is 25.913995 seconds.
Elapsed time is 13.050288 seconds.

对比

Elapsed time is 10.053347 seconds.
Elapsed time is 1.978974 seconds.

在第二个打开优化。

顺便说一句，并行parfor性能要差得多（至少在我的本地测试机器上，池大小为 2 个进程）。

看到您发布的结果，MEX 功能是要走的路:)

arrays - 对元胞数组的每个元素执行算术运算的最快方法是什么？

1 回答 1

Related

Reference