python - numpy 和 matlab 的性能差异

Question

我正在计算backpropagation稀疏自动编码器的算法。我已经在 python 中使用numpy和 in实现了它matlab。代码几乎相同，但性能却大不相同。matlab 完成任务所需的时间是 0.252454 秒，而 numpy 是 0.973672151566，几乎是四倍。稍后我将在最小化问题中多次调用此代码，因此这种差异会导致实现之间存在几分钟的延迟。这是正常行为吗？如何提高 numpy 的性能？

Numpy 实现：

Sparse.rho 是一个调整参数，sparse.nodes 是隐藏层（25）中的节点数，sparse.input（64）是输入层中的节点数，theta1 和 theta2 是第一个和第二层的尺寸分别为25x64和64x25，m等于10000，rhoest的尺寸为(25,)，x的尺寸为10000x64，a3 10000x64和a2 10000x25。

UPDATE: 我在响应的一些想法之后对代码进行了更改。现在的性能是 numpy: 0.65 vs matlab: 0.25。

partial_j1 = np.zeros(sparse.theta1.shape)
partial_j2 = np.zeros(sparse.theta2.shape)
partial_b1 = np.zeros(sparse.b1.shape)
partial_b2 = np.zeros(sparse.b2.shape)
t = time.time()

delta3t = (-(x-a3)*a3*(1-a3)).T

for i in range(m):

    delta3 = delta3t[:,i:(i+1)]
    sum1 =  np.dot(sparse.theta2.T,delta3)
    delta2 = ( sum1 + sum2 ) * a2[i:(i+1),:].T* (1 - a2[i:(i+1),:].T)
    partial_j1 += np.dot(delta2, a1[i:(i+1),:])
    partial_j2 += np.dot(delta3, a2[i:(i+1),:])
    partial_b1 += delta2
    partial_b2 += delta3

print "Backprop time:", time.time() -t

Matlab实现：

tic
for i = 1:m

    delta3 = -(data(i,:)-a3(i,:)).*a3(i,:).*(1 - a3(i,:));
    delta3 = delta3.';
    sum1 =  W2.'*delta3;
    sum2 = beta*(-sparsityParam./rhoest + (1 - sparsityParam) ./ (1.0 - rhoest) );
    delta2 = ( sum1 + sum2 ) .* a2(i,:).' .* (1 - a2(i,:).');
    W1grad = W1grad + delta2* a1(i,:);
    W2grad = W2grad + delta3* a2(i,:);
    b1grad = b1grad + delta2;
    b2grad = b2grad + delta3;
end
toc

score 52 · Accepted Answer

说“Matlab 总是比 NumPy 快”是错误的，反之亦然。他们的表现通常是可比的。使用 NumPy 时，要获得良好的性能，您必须记住 NumPy 的速度来自调用用 C/C++/Fortran 编写的底层函数。当您将这些函数应用于整个数组时，它表现良好。通常，当您在 Python 循环中的较小数组或标量上调用这些 NumPy 函数时，性能会较差。

你问的 Python 循环有什么问题？通过 Python 循环的每次迭代都是对方法的调用next。每次使用[]索引都是对方法的调用 __getitem__。每一个+=都是对__iadd__. 每个点属性查找（例如在 like 中np.dot）都涉及函数调用。这些函数调用对速度造成了很大的阻碍。这些钩子赋予了 Python 表达能力——例如，字符串索引与 dicts 索引不同。相同的语法，不同的含义。魔术是通过给对象不同的__getitem__方法来实现的。

但这种表现力是以速度为代价的。因此，当您不需要所有动态表达能力以获得更好的性能时，请尝试将自己限制为对整个数组的 NumPy 函数调用。

因此，删除 for 循环；尽可能使用“矢量化”方程。例如，而不是

for i in range(m):
    delta3 = -(x[i,:]-a3[i,:])*a3[i,:]* (1 - a3[i,:])

您可以一次计算delta3每个i：

delta3 = -(x-a3)*a3*(1-a3)

而在for-loop delta3是一个向量，使用向量化方程delta3是一个矩阵。

中的一些计算for-loop不依赖于i，因此应该在循环之外提升。例如，sum2看起来像一个常量：

sum2 = sparse.beta*(-float(sparse.rho)/rhoest + float(1.0 - sparse.rho) / (1.0 - rhoest) )

alt这是一个可运行的示例，其中包含您的代码 ( )的替代实现 ( orig)。

我的 timeit 基准测试显示速度提高了 6.8 倍：

In [52]: %timeit orig()
1 loops, best of 3: 495 ms per loop

In [53]: %timeit alt()
10 loops, best of 3: 72.6 ms per loop

import numpy as np


class Bunch(object):
    """ http://code.activestate.com/recipes/52308 """
    def __init__(self, **kwds):
        self.__dict__.update(kwds)

m, n, p = 10 ** 4, 64, 25

sparse = Bunch(
    theta1=np.random.random((p, n)),
    theta2=np.random.random((n, p)),
    b1=np.random.random((p, 1)),
    b2=np.random.random((n, 1)),
)

x = np.random.random((m, n))
a3 = np.random.random((m, n))
a2 = np.random.random((m, p))
a1 = np.random.random((m, n))
sum2 = np.random.random((p, ))
sum2 = sum2[:, np.newaxis]

def orig():
    partial_j1 = np.zeros(sparse.theta1.shape)
    partial_j2 = np.zeros(sparse.theta2.shape)
    partial_b1 = np.zeros(sparse.b1.shape)
    partial_b2 = np.zeros(sparse.b2.shape)
    delta3t = (-(x - a3) * a3 * (1 - a3)).T
    for i in range(m):
        delta3 = delta3t[:, i:(i + 1)]
        sum1 = np.dot(sparse.theta2.T, delta3)
        delta2 = (sum1 + sum2) * a2[i:(i + 1), :].T * (1 - a2[i:(i + 1), :].T)
        partial_j1 += np.dot(delta2, a1[i:(i + 1), :])
        partial_j2 += np.dot(delta3, a2[i:(i + 1), :])
        partial_b1 += delta2
        partial_b2 += delta3
        # delta3: (64, 1)
        # sum1: (25, 1)
        # delta2: (25, 1)
        # a1[i:(i+1),:]: (1, 64)
        # partial_j1: (25, 64)
        # partial_j2: (64, 25)
        # partial_b1: (25, 1)
        # partial_b2: (64, 1)
        # a2[i:(i+1),:]: (1, 25)
    return partial_j1, partial_j2, partial_b1, partial_b2


def alt():
    delta3 = (-(x - a3) * a3 * (1 - a3)).T
    sum1 = np.dot(sparse.theta2.T, delta3)
    delta2 = (sum1 + sum2) * a2.T * (1 - a2.T)
    # delta3: (64, 10000)
    # sum1: (25, 10000)
    # delta2: (25, 10000)
    # a1: (10000, 64)
    # a2: (10000, 25)
    partial_j1 = np.dot(delta2, a1)
    partial_j2 = np.dot(delta3, a2)
    partial_b1 = delta2.sum(axis=1)
    partial_b2 = delta3.sum(axis=1)
    return partial_j1, partial_j2, partial_b1, partial_b2

answer = orig()
result = alt()
for a, r in zip(answer, result):
    try:
        assert np.allclose(np.squeeze(a), r)
    except AssertionError:
        print(a.shape)
        print(r.shape)
        raise

提示：请注意，我在评论中留下了所有中间数组的形状。了解数组的形状有助于我理解您的代码在做什么。数组的形状可以帮助引导您使用正确的 NumPy 函数。或者至少，注意形状可以帮助您了解操作是否合理。例如，当您计算

np.dot(A, B)

和A.shape = (n, m)，B.shape = (m, p)然后np.dot(A, B)将是一个形状数组(n, p)。

它可以帮助以 C_CONTIGUOUS 顺序构建数组（至少，如果使用np.dot）。这样做可能会提高 3 倍的速度：

下面，除了C_CONTIGUOUS 和 F_CONTIGUOUS 之外，与和的关系x相同。xfxxfyyf

import numpy as np

m, n, p = 10 ** 4, 64, 25
x = np.random.random((n, m))
xf = np.asarray(x, order='F')

y = np.random.random((m, n))
yf = np.asarray(y, order='F')

assert np.allclose(x, xf)
assert np.allclose(y, yf)
assert np.allclose(np.dot(x, y), np.dot(xf, y))
assert np.allclose(np.dot(x, y), np.dot(xf, yf))

%timeit基准测试显示速度差异：

In [50]: %timeit np.dot(x, y)
100 loops, best of 3: 12.9 ms per loop

In [51]: %timeit np.dot(xf, y)
10 loops, best of 3: 27.7 ms per loop

In [56]: %timeit np.dot(x, yf)
10 loops, best of 3: 21.8 ms per loop

In [53]: %timeit np.dot(xf, yf)
10 loops, best of 3: 33.3 ms per loop

关于 Python 中的基准测试：

使用调用对的差异time.time()来衡量 Python 中代码的速度可能会产生误导。您需要多次重复测量。最好禁用自动垃圾收集器。测量大的时间跨度（例如至少 10 秒的重复次数）也很重要，以避免由于时钟计时器分辨率差而导致的错误，并减少time.time调用开销的重要性。Python 不是自己编写所有代码，而是为您提供timeit 模块。我本质上是使用它来计时代码片段，只是为了方便起见，我通过IPython 终端调用它。

我不确定这是否会影响您的基准测试，但请注意它可能会有所作为。在我链接到的问题中，根据time.time两段代码相差 1.7 倍，而使用的基准测试timeit显示这些代码段运行的时间基本相同。

score 3 · Accepted Answer

我将从就地操作开始，以避免每次都分配新数组：

partial_j1 += np.dot(delta2, a1[i,:].reshape(1,a1.shape[1]))
partial_j2 += np.dot(delta3, a2[i,:].reshape(1,a2.shape[1]))
partial_b1 += delta2
partial_b2 += delta3

您可以替换此表达式：

a1[i,:].reshape(1,a1.shape[1])

更简单，更快（感谢Bi Rico）：

a1[i:i+1]

另外，这一行：

sum2 = sparse.beta*(-float(sparse.rho)/rhoest + float(1.0 - sparse.rho) / (1.0 - rhoest))

每个循环似乎都相同，您不需要重新计算它。

并且，可能是次要优化，您可以将所有出现的替换 x[i,:]为x[i]。

最后，如果您有能力分配m更多内存，您可以按照unutbu的建议对循环进行矢量化：

for m in range(m):
    delta3 = -(x[i]-a3[i])*a3[i]* (1 - a3[i])

和：

delta3 = -(x-a3)*a3*(1-a3)

而且您始终可以使用 Numba 并显着提高速度，而无需矢量化（并且无需使用更多内存）。

score 1 · Accepted Answer

numpy 和 matlab 之间的性能差异一直让我感到沮丧。它们通常最终归结为底层的 lapack 库。据我所知，matlab 使用完整的 atlas lapack 作为默认值，而 numpy 使用 lapack 灯。Matlab 认为人们不关心空间和体积，而 numpy 认为人们关心。类似的问题有一个很好的答案。

python - numpy 和 matlab 的性能差异

3 回答 3

Related

Reference