14

考虑这个虚拟 Cython 代码:

#!python
#cython: boundscheck=False
#cython: wraparound=False
#cython: initializedcheck=False
#cython: cdivision=True
#cython: nonecheck=False

import numpy as np

# iterator function
cdef double[:] f(double[:] data):
    data[0] *= 1.01
    data[1] *= 1.02
    return data

# looping function
cdef double[:] _call_me(int bignumber, double[:] data):
    cdef int ii
    for ii in range(bignumber):
        data = f(data)
    return data

# helper function to allow calls from Python
def call_me(bignumber):
    cdef double[:] data = np.ones(2)
    return _call_me(bignumber, data)

现在,如果我对此执行cython -a,它会以黄色显示返回语句。我在一个对性能非常关键的程序中做类似的事情,根据分析,这真的减慢了我的代码。那么,为什么 cython 需要 python 来处理这些返回语句呢?带注释的文件给出了提示:

PyErr_SetString(PyExc_TypeError,"Memoryview return value is not initialized");

令人惊讶的是,谷歌搜索cython“Memoryview 返回值未初始化”给出的结果为零。

4

1 回答 1

7

慢的部分不是你想象的那样。缓慢的部分是(嗯......主要)

data = f(data)

不是f(data). data =。_

这分配了 a struct,它被定义为

typedef struct {
  struct __pyx_memoryview_obj *memview;
  char *data;
  Py_ssize_t shape[8];
  Py_ssize_t strides[8];
  Py_ssize_t suboffsets[8];
} __Pyx_memviewslice;

并且提到的任务确实

__pyx_t_3 = __pyx_f_3cyt_f(__pyx_v_data);

where__pyx_t_3是那种类型。如果在循环中大量执行此操作,则复制结构所花费的时间要比完成函数的琐碎主体要长得多。我在纯 C 中做了一个计时,它给出了相似的数字。

编辑说明:分配实际上主要是一个问题,因为它还导致结构和其他副本的生成没有被优化。

然而,整个事情看起来很愚蠢。复制结构的唯一原因是如果有什么改变了,但什么都没有。内存点在同一个地方,数据点在同一个地方,形状、步幅和偏移量都是一样的。

我看到避免struct复制的唯一方法是不更改它引用的任何内容(也就是总是返回memoryview给定的)。这只有在返回毫无意义的情况下才有可能,比如这里。或者你可以破解C,我猜,就像我一样。如果你打破了一些东西,请不要哭泣。


另请注意,您可以创建自己的函数nogil,因此它与回归 Python 没有任何关系。


编辑

C 的优化编译器让我有点失望。基本上,我删除了一些分配,它删除了许多其他的东西。基本上缓慢的路径是这样的:

#include<stdio.h>


struct __pyx_memoryview_obj;


typedef struct {
  struct __pyx_memoryview_obj *memview;
  char *data;
  ssize_t shape[8];
  ssize_t strides[8];
  ssize_t suboffsets[8];
} __Pyx_memviewslice;


static __Pyx_memviewslice __pyx_f_3cyt_f(__Pyx_memviewslice __pyx_v_data) {
  __Pyx_memviewslice __pyx_r = { 0, 0, { 0 }, { 0 }, { 0 } };
  __pyx_r = __pyx_v_data;
  return __pyx_r;
}

main() {
    int i;
    __Pyx_memviewslice __pyx_v_data = {0, 0, { 0 }, { 0 }, { 0 }};

    for (i=0; i<10000000; i++) {
        __pyx_v_data = __pyx_f_3cyt_f(__pyx_v_data);
    }
}

(编译没有优化)。我不是 C 程序员,所以如果我所做的事情在某种程度上与我复制计算机生成的代码没有直接关系,我深表歉意。

我知道这没有,但我已经尽力了,好吗?

于 2014-01-10T15:41:23.877 回答