12

几周前,我问了一个关于提高用 Python 编写的函数的速度的问题。当时,TryPyPy 让我注意到了使用 Cython 这样做的可能性。他还好心地举了一个例子,说明我如何对那个代码片段进行 Cythonize。我想对下面的代码做同样的事情,看看我可以通过声明变量类型来多快。我有几个与此相关的问题。我在 cython.org 上看过教程,但我仍有一些问题。它们密切相关:

  1. 我不懂任何 C。我需要学习哪些部分才能使用 Cython 声明变量类型?
  2. python列表和元组对应的C类型是什么?例如,我可以double在 Cythonfloat中使用 Python 中的 for。我要为列表做什么?一般来说,我在哪里可以找到给定 Python 类型对应的 C 类型。

任何关于我如何对下面的代码进行 Cythonize 的示例都会非常有帮助。我在代码中插入了注释,提供有关变量类型的信息。

class Some_class(object):
    ** Other attributes and functions **
    def update_awareness_status(self, this_var, timePd):
        '''Inputs: this_var (type: float)
           timePd (type: int)
           Output: None'''

        max_number = len(self.possibilities)
        # self.possibilities is a list of tuples.
        # Each tuple is a pair of person objects. 

        k = int(math.ceil(0.3 * max_number))
        actual_number = random.choice(range(k))
        chosen_possibilities = random.sample(self.possibilities, 
                                         actual_number)
        if len(chosen_possibilities) > 0:
            # chosen_possibilities is a list of tuples, each tuple is a pair
            # of person objects. I have included the code for the Person class
            # below.
            for p1,p2 in chosen_possibilities:

                # awareness_status is a tuple (float, int)
                if p1.awareness_status[1] < p2.awareness_status[1]:                   
                    if p1.value > p2.awareness_status[0]:
                        p1.awareness_status = (this_var, timePd)
                    else:
                        p1.awareness_status = p2.awareness_status
                elif p1.awareness_status[1] > p2.awareness_status[1]:
                    if p2.value > p1.awareness_status[0]:
                        p2.awareness_status = (price, timePd)
                    else:
                        p2.awareness_status = p1.awareness_status
                else:
                    pass     

class Person(object):                                         
    def __init__(self,id, value):
        self.value = value
        self.id = id
        self.max_val = 50000
        ## Initial awareness status.          
        self.awarenessStatus = (self.max_val, -1)
4

2 回答 2

7

作为一般说明,您可以通过运行带有“注释”选项的cython命令来准确查看 Cython 为每个源代码行生成的 C 代码。-a有关示例,请参阅 Cython文档。这在试图找到函数体中的瓶颈时非常有用。

此外,在 Cython 处理您的代码时,还有“早期绑定以提高速度”的概念。Python 对象(如Person下面您的类的实例)使用通用 Python 代码进行属性访问,这在内部循环中很慢。我怀疑如果您将Person类更改为 a cdef class,那么您会看到一些加速。此外,您需要在内部循环中键入p1和对象。p2

由于您的代码有很多 Python 调用(random.sample例如),除非您找到一种方法将这些行放入 C 中,否则您可能不会获得巨大的加速,这需要大量的努力。

您可以将内容键入为 atuple或 a list,但这通常并不意味着加速。最好尽可能使用 C 数组;你必须查找的东西。

通过下面的微不足道的修改,我得到了 1.6 倍的加速。请注意,我必须在这里和那里更改一些东西才能编译它。

ctypedef int ITYPE_t

cdef class CyPerson:
    # These attributes are placed in the extension type's C-struct, so C-level
    # access is _much_ faster.
    cdef ITYPE_t value, id, max_val
    cdef tuple awareness_status

    def __init__(self, ITYPE_t id, ITYPE_t value):
        # The __init__ function is much the same as before.
        self.value = value
        self.id = id
        self.max_val = 50000
        ## Initial awareness status.          
        self.awareness_status = (self.max_val, -1)

NPERSONS = 10000

import math
import random

class Some_class(object):

    def __init__(self):
        ri = lambda: random.randint(0, 10)
        self.possibilities = [(CyPerson(ri(), ri()), CyPerson(ri(), ri())) for i in range(NPERSONS)]

    def update_awareness_status(self, this_var, timePd):
        '''Inputs: this_var (type: float)
           timePd (type: int)
           Output: None'''

        cdef CyPerson p1, p2
        price = 10

        max_number = len(self.possibilities)
        # self.possibilities is a list of tuples.
        # Each tuple is a pair of person objects. 

        k = int(math.ceil(0.3 * max_number))
        actual_number = random.choice(range(k))
        chosen_possibilities = random.sample(self.possibilities,
                                         actual_number)
        if len(chosen_possibilities) > 0:
            # chosen_possibilities is a list of tuples, each tuple is a pair
            # of person objects. I have included the code for the Person class
            # below.
            for persons in chosen_possibilities:
                p1, p2 = persons
                # awareness_status is a tuple (float, int)
                if p1.awareness_status[1] < p2.awareness_status[1]:
                    if p1.value > p2.awareness_status[0]:
                        p1.awareness_status = (this_var, timePd)
                    else:
                        p1.awareness_status = p2.awareness_status
                elif p1.awareness_status[1] > p2.awareness_status[1]:
                    if p2.value > p1.awareness_status[0]:
                        p2.awareness_status = (price, timePd)
                    else:
                        p2.awareness_status = p1.awareness_status
于 2011-02-17T18:37:33.747 回答
1

C 并不直接知道列表的概念。基本数据类型是int( char, short, long), float/ double(所有这些都与 python 的映射非常简单)和指针。如果指针的概念对您来说是新概念,请查看:Wikipedia:Pointers

在某些情况下,指针可以用作元组/数组替换。字符指针是所有字符串的基础。假设您有一个整数数组,然后将其存储为具有起始地址的连续内存块,您定义类型 ( int) 并且它是一个指针 ( *):

cdef int * array;

现在您可以像这样访问数组的每个元素:

array[0] = 1

但是,必须分配内存(例如使用malloc)并且高级索引将不起作用(例如array[-1]将是内存中的随机数据,这也适用于超出保留空间宽度的索引)。

更复杂的类型不会直接映射到 C,但通常有一种 C 方法可以做一些可能不需要 python 类型的事情(例如,for 循环不需要范围数组/迭代器)。

正如您自己注意到的那样,编写好的 cython 代码需要更详细的 C 知识,因此继续学习教程可能是最好的下一步。

于 2011-02-02T21:18:13.833 回答