python - 如何在python中加速多个内积

Question

我有一些简单的代码可以执行以下操作。

F它使用 +-1 个条目迭代所有可能长度为 n 的列表。对于每一个，它都会遍历所有可能的长度2n列表S，其中包含 +-1 个条目，其中 $S$ 的前半部分只是后半部分的副本。该代码计算的与长度的F每个子列表的内积。对于每个 F，S，它计算在第一个非零内积之前为零的内积。Sn

这是代码。

#!/usr/bin/python

from __future__ import division
import itertools
import operator
import math

n=14
m=n+1
def innerproduct(A, B):
    assert (len(A) == len(B))
    s = 0 
    for k in xrange(0,n):
        s+=A[k]*B[k]
    return s

leadingzerocounts = [0]*m
for S in itertools.product([-1,1], repeat = n):
    S1 = S + S
    for F in itertools.product([-1,1], repeat = n):
        i = 0
        while (i<m):
            ip = innerproduct(F, S1[i:i+n])
            if (ip == 0):
                leadingzerocounts[i] +=1
                i+=1
            else:
                break

print leadingzerocounts

正确的输出n=14是

[56229888, 23557248, 9903104, 4160640, 1758240, 755392, 344800, 172320, 101312, 75776, 65696, 61216, 59200, 59200, 59200]

使用 pypy，对于 n = 14，这需要 1 分 18 秒。不幸的是，我真的很想为 16、18、20、22、24、26 运行它。我不介意使用 numba 或 cython，但如果可能的话，我想靠近 python。

非常感谢任何加快这一进程的帮助。

我将在这里记录最快的解决方案。（如果我错过了更新的答案，请告诉我。）

n = 22 在 9m35.081s 由 Eisenstat (C)
n = 18 在 1m16.344s 由 Eisenstat (pypy)
n = 18 在 2m54.998s 由 Tupteq (pypy)
n = 14 at 26s by Neil (numpy)
n - 14 在 11m59.192s 由 kslote1 (pypy)

score 22 · Accepted Answer

通过利用问题的循环对称性，这个新代码获得了另一个数量级的加速。这个 Python 版本使用 Duval 算法枚举项链；C 版本使用蛮力。两者都包含下面描述的加速。在我的机器上，C 版本在 100 秒内解决了 n = 20！粗略的计算表明，如果你让它在一个核心上运行一周，它可以做到 n = 26，并且如下所述，它可以接受并行性。

import itertools


def necklaces_with_multiplicity(n):
    assert isinstance(n, int)
    assert n > 0
    w = [1] * n
    i = 1
    while True:
        if n % i == 0:
            s = sum(w)
            if s > 0:
                yield (tuple(w), i * 2)
            elif s == 0:
                yield (tuple(w), i)
        i = n - 1
        while w[i] == -1:
            if i == 0:
                return
            i -= 1
        w[i] = -1
        i += 1
        for j in range(n - i):
            w[i + j] = w[j]


def leading_zero_counts(n):
    assert isinstance(n, int)
    assert n > 0
    assert n % 2 == 0
    counts = [0] * n
    necklaces = list(necklaces_with_multiplicity(n))
    for combo in itertools.combinations(range(n - 1), n // 2):
        for v, multiplicity in necklaces:
            w = list(v)
            for j in combo:
                w[j] *= -1
            for i in range(n):
                counts[i] += multiplicity * 2
                product = 0
                for j in range(n):
                    product += v[j - (i + 1)] * w[j]
                if product != 0:
                    break
    return counts


if __name__ == '__main__':
    print(leading_zero_counts(12))

C版：

#include <stdio.h>

enum {
  N = 14
};

struct Necklace {
  unsigned int v;
  int multiplicity;
};

static struct Necklace g_necklace[1 << (N - 1)];
static int g_necklace_count;

static void initialize_necklace(void) {
  g_necklace_count = 0;
  for (unsigned int v = 0; v < (1U << (N - 1)); v++) {
    int multiplicity;
    unsigned int w = v;
    for (multiplicity = 2; multiplicity < 2 * N; multiplicity += 2) {
      w = ((w & 1) << (N - 1)) | (w >> 1);
      unsigned int x = w ^ ((1U << N) - 1);
      if (w < v || x < v) goto nope;
      if (w == v || x == v) break;
    }
    g_necklace[g_necklace_count].v = v;
    g_necklace[g_necklace_count].multiplicity = multiplicity;
    g_necklace_count++;
   nope:
    ;
  }
}

int main(void) {
  initialize_necklace();
  long long leading_zero_count[N + 1];
  for (int i = 0; i < N + 1; i++) leading_zero_count[i] = 0;
  for (unsigned int v_xor_w = 0; v_xor_w < (1U << (N - 1)); v_xor_w++) {
    if (__builtin_popcount(v_xor_w) != N / 2) continue;
    for (int k = 0; k < g_necklace_count; k++) {
      unsigned int v = g_necklace[k].v;
      unsigned int w = v ^ v_xor_w;
      for (int i = 0; i < N + 1; i++) {
        leading_zero_count[i] += g_necklace[k].multiplicity;
        w = ((w & 1) << (N - 1)) | (w >> 1);
        if (__builtin_popcount(v ^ w) != N / 2) break;
      }
    }
  }
  for (int i = 0; i < N + 1; i++) {
    printf(" %lld", 2 * leading_zero_count[i]);
  }
  putchar('\n');
  return 0;
}

您可以通过利用符号对称性 (4x) 并仅迭代通过第一个内积测试的那些向量（渐近地，O(sqrt(n))x）来获得一点加速。

import itertools


n = 10
m = n + 1


def innerproduct(A, B):
    s = 0
    for k in range(n):
        s += A[k] * B[k]
    return s


leadingzerocounts = [0] * m
for S in itertools.product([-1, 1], repeat=n - 1):
    S1 = S + (1,)
    S1S1 = S1 * 2
    for C in itertools.combinations(range(n - 1), n // 2):
        F = list(S1)
        for i in C:
            F[i] *= -1
        leadingzerocounts[0] += 4
        for i in range(1, m):
            if innerproduct(F, S1S1[i:i + n]):
                break
            leadingzerocounts[i] += 4
print(leadingzerocounts)

C 版本，以了解我们在 PyPy 中损失了多少性能（PyPy 的 16 大致相当于 C 的 18）：

#include <stdio.h>

enum {
  HALFN = 9,
  N = 2 * HALFN
};

int main(void) {
  long long lzc[N + 1];
  for (int i = 0; i < N + 1; i++) lzc[i] = 0;
  unsigned int xor = 1 << (N - 1);
  while (xor-- > 0) {
    if (__builtin_popcount(xor) != HALFN) continue;
    unsigned int s = 1 << (N - 1);
    while (s-- > 0) {
      lzc[0]++;
      unsigned int f = xor ^ s;
      for (int i = 1; i < N + 1; i++) {
        f = ((f & 1) << (N - 1)) | (f >> 1);
        if (__builtin_popcount(f ^ s) != HALFN) break;
        lzc[i]++;
      }
    }
  }
  for (int i = 0; i < N + 1; i++) printf(" %lld", 4 * lzc[i]);
  putchar('\n');
  return 0;
}

这个算法是令人尴尬的并行，因为它只是累加xor. 对于 C 版本，粗略的计算表明，几千小时的 CPU 时间就足以计算n = 26，以 EC2 上的当前费率计算，这相当于几百美元。毫无疑问，需要进行一些优化（例如，矢量化），但是对于这样的一次性，我不确定程序员付出多少努力是值得的。

score 7 · Accepted Answer

一个非常简单的 n 因子加速是更改此代码：

def innerproduct(A, B):
    assert (len(A) == len(B))
    for j in xrange(len(A)):
        s = 0 
        for k in xrange(0,n):
            s+=A[k]*B[k]
    return s

至

def innerproduct(A, B):
    assert (len(A) == len(B))
    s = 0 
    for k in xrange(0,n):
        s+=A[k]*B[k]
    return s

（我不知道为什么你在 j 上有循环，但它每次都做相同的计算，所以没有必要。）

score 2 · Accepted Answer

我已经尝试将它转移到 NumPy 数组中并从这个问题中借用：itertools product speed up

这就是我所得到的，（这里可能有更多的加速）：

def find_leading_zeros(n):
    if n % 2:
        return numpy.zeros(n)
    m = n+1
    leading_zero_counts = numpy.zeros(m)
    product_list = [-1, 1]
    repeat = n
    s = (numpy.array(product_list)[numpy.rollaxis(numpy.indices((len(product_list),) * repeat),
                                                  0, repeat + 1).reshape(-1, repeat)]).astype('int8')
    i = 0
    size = s.shape[0] / 2
    products = numpy.zeros((size, size), dtype=bool)
    while i < m:
        products += (numpy.tensordot(s[0:size, 0:size],
                                     numpy.roll(s, i, axis=1)[0:size, 0:size],
                                     axes=(-1,-1))).astype('bool')
        leading_zero_counts[i] = (products.size - numpy.sum(products)) * 4
        i += 1

    return leading_zero_counts

运行 n=14 我得到：

>>> find_leading_zeros(14)
array([ 56229888.,  23557248.,   9903104.,   4160640.,   1758240.,
        755392.,    344800.,    172320.,    101312.,     75776.,
        65696.,     61216.,     59200.,     59200.,     59200.])

所以一切看起来都很好。至于速度：

>>> timeit.timeit("find_leading_zeros_old(10)", number=10)
28.775046825408936
>>> timeit.timeit("find_leading_zeros(10)", number=10)
2.236745834350586

看你怎么想。

编辑：

原始版本为 N=14 使用了 2074MB 内存，因此我删除了串联数组并numpy.roll改为使用。还将数据类型更改为使用布尔数组，在 n=14 时将内存降至 277MB。

时间明智的编辑又快了一点：

>>> timeit.timeit("find_leading_zeros(10)", number=10)
1.3816070556640625

编辑2：

好的，所以添加了大卫指出的对称性，我再次减少了这个。它现在使用 213MB。与以前的编辑相比的比较时间：

>>> timeit.timeit("find_leading_zeros(10)", number=10)
0.35357093811035156

我现在可以在我的 mac 书上在 14 秒内完成 n=14 的情况，我认为这对于“纯 python”来说还不错。

score 2 · Accepted Answer

我试图加快速度，但我失败了:(但我正在发送代码，它在某种程度上更快，但对于像n=24.

我的假设

您的列表由值组成，因此我决定使用数字而不是列表 - 每个位代表一个可能的值：如果设置了位，则表示1，如果将其清零，则表示-1。乘法的唯一可能结果{-1, 1}是1or -1，所以我使用按位XOR而不是乘法。我还注意到存在对称性，因此您只需检查可能列表的子集（四分之一）并将结果乘以 4（大卫在他的回答中解释了这一点）。

最后，我将可能操作的结果放到表格中，以消除计算的需要。它需要大量内存，但谁在乎（因为n=24它大约是 150MB）？

然后@David Eisenstat 回答了这个问题:) 所以，我把他的代码修改为基于位的。它快了大约 2-3 倍（因为n=16它需要大约 30 秒，而 David 的解决方案大约需要 90 秒），但我认为这仍然不足以获得结果n=26。

import itertools

n = 16
m = n + 1
mask = (2 ** n) - 1

# Create table of sum results (replaces innerproduct())
tab = []
for a in range(2 ** n):
    s = 0
    for k in range(n):
        s += -1 if a & 1 else 1
        a >>= 1
    tab.append(s)

# Create combination bit masks for combinations
comb = []
for C in itertools.combinations(range(n - 1), n // 2):
    xor = 0
    for i in C:
       xor |= (1 << i)
    comb.append(xor)

leadingzerocounts = [0] * m
for S in xrange(2 ** (n-1)):
    S1 = S + (1 << (n-1))
    S1S1 = S1 + (S1 << n)

    for xor in comb:
        F = S1 ^ xor

        leadingzerocounts[0] += 4
        for i in range(1, m):
            if tab[F ^ ((S1S1 >> i) & mask)]:
                break
            leadingzerocounts[i] += 4

print(leadingzerocounts)

结论

我以为我发明了一些很棒的东西，并希望所有这些乱七八糟的东西都能极大地提高速度，但这种提升小得令人失望:(

我认为原因是 Python 使用运算符的方式 - 它为每个算术（或逻辑）操作调用函数，即使它可以通过单个汇编程序命令完成（我希望pypy能够将操作简化到那个级别，但它没有t)。因此，如果将 C（或 ASM）与这种位操作解决方案一起使用，它可能会表现出色（也许您可以使用n=24）。

score 0 · Accepted Answer

在我看来，获得性能提升的一个好方法是使用 python 内置函数。

首先使用 map 计算条目的乘积：

>>> a =[1,2,3]
>>> b = [4,5,6]
>>>map(lambda x,y : x*y, a , b)
[4, 10, 18]

然后使用reduce计算总和：

>>> reduce(lambda v,w: v+w, map(lambda x,y :x*y, a, b))
32

那么你的功能就变成了

def innerproduct(A, B):
    assert (len(A) == len(B))
    return reduce(lambda v,w: v+w, map(lambda x,y :x*y, A, B))

接下来，我们可以取出所有这些“for 循环”并用生成器替换它们并捕获 StopIteration。

#!/usr/bin/python

from __future__ import division
import itertools
import operator
import math

n=14
m=n+1
def innerproduct(A, B):
    assert (len(A) == len(B))
    return reduce(lambda v,w: v+w, map(lambda x,y :x*y, A, B))


leadingzerocounts = [0]*m

S_gen = itertools.product([-1,1], repeat = n)

try:
    while(True):
       S = S_gen.next()
       S1 = S + S
       F_gen = itertools.product([-1,1], repeat = n)
       try:
           while(True):
               F = F_gen.next()
               for i in xrange(m):
                   ip = innerproduct(F, S1[i:i+n])
                   if (ip == 0):
                       leadingzerocounts[i] +=1
                       i+=1
                   else:
                      break
       except StopIteration:
           pass

except StopIteration as e:
    print e

print leadingzerocounts

我观察到较小的 n 会加快速度，但我的老爷车缺乏计算我的版本的马力，也没有 n=14 的原始代码。进一步加快速度的一种方法是记住该行：

    F_gen = itertools.product([-1,1], repeat = n)

python - 如何在python中加速多个内积

5 回答 5

Related

Reference