arrays - arrayfun 可能比 matlab 中的显式循环慢得多。为什么？

Question

考虑以下简单的速度测试arrayfun：

T = 4000;
N = 500;
x = randn(T, N);
Func1 = @(a) (3*a^2 + 2*a - 1);

tic
Soln1 = ones(T, N);
for t = 1:T
    for n = 1:N
        Soln1(t, n) = Func1(x(t, n));
    end
end
toc

tic
Soln2 = arrayfun(Func1, x);
toc

在我的机器上（Linux Mint 12 上的 Matlab 2011b），这个测试的输出是：

Elapsed time is 1.020689 seconds.
Elapsed time is 9.248388 seconds.

什么？！？arrayfun，虽然公认的解决方案看起来更干净，但速度要慢一个数量级。这里发生了什么？

此外，我做了类似的测试cellfun，发现它比显式循环慢 3 倍。同样，这个结果与我的预期相反。

我的问题是：arrayfun为什么这么cellfun慢？鉴于此，是否有充分的理由使用它们（除了让代码看起来不错）？

注意：我说的是arrayfun这里的标准版本，而不是并行处理工具箱中的 GPU 版本。

编辑：为了清楚起见，我知道Func1上面可以矢量化，正如 Oli 所指出的那样。我之所以选择它，是因为它为实际问题提供了一个简单的速度测试。

编辑：按照 grunetta 的建议，我重新做了测试feature accel off。结果是：

Elapsed time is 28.183422 seconds.
Elapsed time is 23.525251 seconds.

换句话说，似乎很大一部分差异在于 JIT 加速器在加速显式for循环方面做得比它做得更好arrayfun。这对我来说似乎很奇怪，因为arrayfun实际上提供了更多信息，即它的使用表明调用的顺序Func1无关紧要。另外，我注意到无论 JIT 加速器是打开还是关闭，我的系统都只使用一个 CPU...

score 101 · Accepted Answer

您可以通过运行其他版本的代码来获得这个想法。考虑明确写出计算，而不是在循环中使用函数

tic
Soln3 = ones(T, N);
for t = 1:T
    for n = 1:N
        Soln3(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
    end
end
toc

在我的电脑上计算的时间：

Soln1  1.158446 seconds.
Soln2  10.392475 seconds.
Soln3  0.239023 seconds.
Oli    0.010672 seconds.

现在，虽然完全“矢量化”的解决方案显然是最快的，但您可以看到为每个 x 条目定义一个要调用的函数是一个巨大的开销。只是明确地写出计算让我们加速了 5 倍。我猜这表明 MATLABs JIT 编译器不支持内联函数。根据那里的gnovice的回答，实际上最好写一个普通函数而不是匿名函数。试试看。

下一步 - 删除（矢量化）内部循环：

tic
Soln4 = ones(T, N);
for t = 1:T
    Soln4(t, :) = 3*x(t, :).^2 + 2*x(t, :) - 1;
end
toc

Soln4  0.053926 seconds.

另一个因素 5 加速：这些语句中有一些东西说你应该避免在 MATLAB 中出现循环......或者真的有吗？那就看看这个

tic
Soln5 = ones(T, N);
for n = 1:N
    Soln5(:, n) = 3*x(:, n).^2 + 2*x(:, n) - 1;
end
toc

Soln5   0.013875 seconds.

更接近“完全”矢量化版本。Matlab 按列存储矩阵。您应该始终（如果可能）将您的计算构造为“按列”矢量化。

我们现在可以回到Soln3。那里的循环顺序是“逐行”的。让我们改变它

tic
Soln6 = ones(T, N);
for n = 1:N
    for t = 1:T
        Soln6(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
    end
end
toc

Soln6  0.201661 seconds.

更好，但仍然非常糟糕。单循环 - 好。双循环 - 不好。我猜 MATLAB 在提高循环性能方面做了一些不错的工作，但循环开销仍然存在。如果你在里面有一些更重的工作，你不会注意到的。但由于此计算受内存带宽限制，您确实会看到循环开销。你会更清楚地看到在那里调用 Func1 的开销。

那么arrayfun怎么了？那里也没有内联函数，所以开销很大。但是为什么比双嵌套循环差那么多呢？实际上，使用 cellfun/arrayfun 的话题已经被广泛讨论过很多次（例如这里、这里、这里和这里）。这些函数很慢，您不能将它们用于如此细粒度的计算。您可以使用它们来简化代码以及在单元格和数组之间进行花哨的转换。但是函数需要比你写的更重：

tic
Soln7 = arrayfun(@(a)(3*x(:,a).^2 + 2*x(:,a) - 1), 1:N, 'UniformOutput', false);
toc

Soln7  0.016786 seconds.

请注意，Soln7 现在是一个单元格.. 有时这很有用。代码性能现在已经相当不错了，如果你需要单元格作为输出，在你使用完全向量化的解决方案之后，你不需要转换你的矩阵。

那么为什么 arrayfun 比简单的循环结构慢呢？不幸的是，我们不可能肯定地说，因为没有可用的源代码。你只能猜测，由于arrayfun是一个通用的函数，它处理各种不同的数据结构和参数，在简单的情况下不一定很快，你可以直接表示为循环嵌套。我们无法知道开销从何而来。是否可以通过更好的实现来避免开销？也许不吧。但不幸的是，我们唯一能做的就是研究性能以确定哪些情况下效果很好，哪些情况下效果不好。

更新由于此测试的执行时间很短，为了获得可靠的结果，我现在添加了一个围绕测试的循环：

for i=1:1000
   % compute
end

下面给出了一些时间：

Soln5   8.192912 seconds.
Soln7  13.419675 seconds.
Oli     8.089113 seconds.

您会看到 arrayfun 仍然很糟糕，但至少不比矢量化解决方案差三个数量级。另一方面，具有按列计算的单个循环与完全矢量化版本一样快……这一切都是在单个 CPU 上完成的。如果我切换到 2 个内核，Soln5 和 Soln7 的结果不会改变 - 在 Soln5 中，我必须使用 parfor 来使其并行化。忘记加速... Soln7 不并行运行，因为 arrayfun 不并行运行。另一方面，Olis 矢量化版本：

Oli  5.508085 seconds.

score -8 · Accepted Answer

那是因为！！！！

x = randn(T, N);

不是gpuarray类型；

你需要做的就是

x = randn(T, N,'gpuArray');

arrays - arrayfun 可能比 matlab 中的显式循环慢得多。为什么？

2 回答 2

Related

Reference