c++ - Python + alglib + NumPy：如何避免将数组转换为列表？

Question

背景： 我最近发现了alglib库（用于数值计算），这似乎是我一直在寻找的东西（稳健插值、数据分析......），但在 numpy 或 scipy 中找不到。

但是，我担心（例如，对于插值）它不接受 numpy 数组作为有效的输入格式，而只接受常规的 python 列表对象。

问题： 我对代码和文档进行了一些研究，发现（如预期的那样）这种列表格式只是用于转换，因为库无论如何都会将其转换为 ctypes（cpython 库只是底层 C 的接口/C++ 库）。

这就是我担心的地方：在我的代码中，我正在使用 numpy 数组，因为它对我正在执行的科学计算来说是一个很大的性能提升。因此，我担心必须将传递给alglib例程的任何数据转换为列表（将转换为 ctypes）会对性能产生巨大影响（我正在使用内部可能有数十万个浮点数的数组，并且有数千个数组）。

问题： 你认为我确实会有性能损失，还是你认为我应该开始修改alglib代码（仅限python接口），以便它可以接受numpy数组，并且只进行一次转换（从numpy数组到ctypes )? 我什至不知道这是否可行，因为它是一个相当大的图书馆......也许你们有更好的想法或建议（即使在相似但不同的图书馆）......

编辑

似乎我的问题没有引起很多兴趣，或者我的问题不清楚/不相关。或者也许没有人有解决方案或建议，但我怀疑周围有这么多专家:) 无论如何，我已经编写了一个小而快速且肮脏的测试代码来说明问题......

#!/usr/bin/env python

import xalglib as al
import timeit
import numpy as np

def func(x):
    return (3.14 *x**2.3 + x**3 -x**2.34 +x)/(1.+x)**2

def fa(x, y, val=3.14):
    s = al.spline1dbuildakima(x, y)
    return (al.spline1dcalc(s, val), func(val))

def fb(x, y, val=3.14):
    _x = list(x)
    _y = list(y)
    s = al.spline1dbuildakima(_x, _y)
    return (al.spline1dcalc(s, val), func(val))

ntot = 10000
maxi = 100
x = np.random.uniform(high=maxi, size=ntot)
y = func(x)
xl = list(x)
yl = list(y)

print "Test for len(x)=%d, and x between [0 and %.2f):" % (ntot, maxi)
print "Function: (3.14 *x**2.3 + x**3 -x**2.34 +x)/(1.+x)**2"
a, b = fa(xl, yl)
err = np.abs(a-b)/b * 100
print "(x=3.14) interpolated, exact =", (a, b)
print "(x=3.14) relative error should be <= 1e-2: %s (=%.2e)" % ((err <= 1e-2), err)

if __name__ == "__main__":
    t = timeit.Timer(stmt="fa(xl, yl)", setup="from __main__ import fa, xl, yl, func")
    tt = timeit.Timer(stmt="fb(x, y)", setup="from __main__ import fb, x, y, func")
    v = 1000 * t.timeit(number=100)/100
    vv = 1000 * tt.timeit(number=100)/100
    print "%.2f usec/pass" % v
    print "%.2f usec/pass" % vv
    print "%.2f %% less performant using numpy arrays" % ((vv-v)/v*100.)

并运行它，我得到：

"""
Test for len(x)=10000, and x between [0 and 100.00):
Function: (3.14 *x**2.3 + x**3 -x**2.34 +x)/(1.+x)**2
(x=3.14) interpolated, exact = (3.686727834705164, 3.6867278531266905)
(x=3.14) relative error should be <= 1e-2: True (=5.00e-07)
25.85 usec/pass
28.46 usec/pass
10.09 % less performant using numpy arrays
"""

性能损失在大约 8% 到 14% 之间波动，这对我来说是巨大的......

score 5 · Accepted Answer

您可以创建自己的 wrap 函数，将 numpy 数组的数据缓冲区直接传递给向量的数据指针，这不会复制数据，并且可以大大加快您的 wrap 函数。以下代码将 x.ctypes.data 传递给 x_vector.ptr.p_ptr，其中 x 是一个 numpy 数组。

当您传递 numpy 数组时，您必须确保该数组的元素位于连续内存中。以下代码不检查这一点。

import xalglib as al
import numpy as np
import ctypes

def spline1dbuildakima(x, y):
    n = len(x)
    _error_msg = ctypes.c_char_p(0)
    __c = ctypes.c_void_p(0)
    __n = al.c_ptrint_t(n)
    __x = al.x_vector(cnt=n, datatype=al.DT_REAL, owner=al.OWN_CALLER, 
                      last_action=0,ptr=al.x_multiptr(p_ptr=x.ctypes.data))
    __y = al.x_vector(cnt=n, datatype=al.DT_REAL, owner=al.OWN_CALLER, 
                      last_action=0,ptr=al.x_multiptr(p_ptr=y.ctypes.data))

    al._lib_alglib.alglib_spline1dbuildakima(
        ctypes.byref(_error_msg), 
        ctypes.byref(__x), 
        ctypes.byref(__y), 
        ctypes.byref(__n), 
        ctypes.byref(__c))

    __r__c = al.spline1dinterpolant(__c)
    return __r__c    

def func(x):
    return (3.14 *x**2.3 + x**3 -x**2.34 +x)/(1.+x)**2

def fa(x, y, val=3.14):
    s = spline1dbuildakima(x, y)
    return al.spline1dcalc(s, val), func(val)

def fb(x, y, val=3.14):
    s = al.spline1dbuildakima(x, y)
    return al.spline1dcalc(s, val), func(val)

ntot = 10000
maxi = 100
x = np.random.uniform(high=maxi, size=ntot)
y = func(x)
xl = list(x)
yl = list(y)

import time
start = time.clock()
for i in xrange(100):
    a, b = fa(x, y)
print time.clock()-start
err = np.abs(a-b)/b * 100
print a, b, err

start = time.clock()
for i in xrange(100):
    a, b = fb(xl, yl)
print time.clock()-start
err = np.abs(a-b)/b * 100
print a, b, err

输出是：

0.722314760822 <- seconds of numpy array version
3.68672728107 3.68672785313 1.55166878281e-05
3.22011891502  <- seconds of list version
3.68672728107 3.68672785313 1.55166878281e-05

score 3 · Accepted Answer

让 C++ alglib 接受 NumPy 数组当然是可行的：SciPy 就是这样做的。问题真的是它有多难。您可能想尝试一种半自动的 C++ → Python 包装程序，例如（从我开始的那个开始——警告：我不是专家）：

关于另一个主题：过去，我在 SciPy 中成功使用了插值样条曲线。不过，我不确定这是否足以满足您的需求，因为您没有在 SciPy 中找到您想要的一切。

score 1 · Accepted Answer

除了 EOL 的答案，您还可以尝试

SWIG 与 numpy.i

为了生成处理 NumPy 数组但使用适当参数调用底层 C/C++ 的 Python 接口。

我发现文档足够清晰，可以为小型科学 C 库执行此操作，而以前从未这样做过，也没有丰富的 C 和 Python 接口经验。

c++ - Python + alglib + NumPy：如何避免将数组转换为列表？

编辑

3 回答 3

Related

Reference