12

我找不到 ctypes 将如何弥合std::vector和 Python 之间的差距;互联网上没有提到的组合。这是不好的做法,它不存在还是我错过了什么?

C++:xxx.cpp

#include <fstream>
#include <string>
using namespace std;
extern "C" std::vector<int> foo(const char* FILE_NAME)
{
    string line;
    std::vector<int> result;
    ifstream myfile(FILE_NAME);
    while (getline(myfile, line)) {
      result.push_back(1);
    }

    return(result);
}

蟒蛇: xxx.py

import ctypes
xxx = ctypes.CDLL("./libxxx.so")
xxx.foo.argtypes = ??????
xxx.foo.restype = ??????
4

3 回答 3

24

不管这种方法是否真的提供了更快的执行时间,我将解释一下如何去做。基本上,创建一个指向vector可以通过 C 函数与 Python 交互的 C++ 的指针。然后,您可以将 C++ 代码包装在 Python 类中,隐藏ctypes.

我将我认为有用的魔法方法包含在 Python 类中。您可以选择删除它们或添加更多以满足您的需要。不过,析构函数很重要。

C++

// vector_python.cpp
#include <vector>
#include <iostream>
#include <fstream>
#include <string>

using namespace std;

extern "C" void foo(vector<int>* v, const char* FILE_NAME){
    string line;
    ifstream myfile(FILE_NAME);
    while (getline(myfile, line)) v->push_back(1);
}

extern "C" {
    vector<int>* new_vector(){
        return new vector<int>;
    }
    void delete_vector(vector<int>* v){
        cout << "destructor called in C++ for " << v << endl;
        delete v;
    }
    int vector_size(vector<int>* v){
        return v->size();
    }
    int vector_get(vector<int>* v, int i){
        return v->at(i);
    }
    void vector_push_back(vector<int>* v, int i){
        v->push_back(i);
    }
}

将其编译为共享库。在 Mac OS X 上,这可能看起来像,

g++ -c -fPIC vector_python.cpp -o vector_python.o
g++ -shared -Wl,-install_name,vector_python_lib.so -o vector_python_lib.so vector_python.o

Python

from ctypes import *

class Vector(object):
    lib = cdll.LoadLibrary('vector_python_lib.so') # class level loading lib
    lib.new_vector.restype = c_void_p
    lib.new_vector.argtypes = []
    lib.delete_vector.restype = None
    lib.delete_vector.argtypes = [c_void_p]
    lib.vector_size.restype = c_int
    lib.vector_size.argtypes = [c_void_p]
    lib.vector_get.restype = c_int
    lib.vector_get.argtypes = [c_void_p, c_int]
    lib.vector_push_back.restype = None
    lib.vector_push_back.argtypes = [c_void_p, c_int]
    lib.foo.restype = None
    lib.foo.argtypes = [c_void_p]

    def __init__(self):
        self.vector = Vector.lib.new_vector()  # pointer to new vector

    def __del__(self):  # when reference count hits 0 in Python,
        Vector.lib.delete_vector(self.vector)  # call C++ vector destructor

    def __len__(self):
        return Vector.lib.vector_size(self.vector)

    def __getitem__(self, i):  # access elements in vector at index
        if 0 <= i < len(self):
            return Vector.lib.vector_get(self.vector, c_int(i))
        raise IndexError('Vector index out of range')

    def __repr__(self):
        return '[{}]'.format(', '.join(str(self[i]) for i in range(len(self))))

    def push(self, i):  # push calls vector's push_back
        Vector.lib.vector_push_back(self.vector, c_int(i))

    def foo(self, filename):  # foo in Python calls foo in C++
        Vector.lib.foo(self.vector, c_char_p(filename))

然后,您可以在解释器中对其进行测试(file.txt仅包含三行乱码)。

>>> from vector import Vector
>>> a = Vector()
>>> a.push(22)
>>> a.push(88)
>>> a
[22, 88]
>>> a[1]
88
>>> a[2]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "vector.py", line 30, in __getitem__
    raise IndexError('Vector index out of range')
IndexError: Vector index out of range
>>> a.foo('file.txt')
>>> a
[22, 88, 1, 1, 1]
>>> b = Vector()
>>> ^D
destructor called in C++ for 0x1003884d0
destructor called in C++ for 0x10039df10
于 2013-06-02T21:23:10.230 回答
7

特别的原因是速度很重要。我正在创建一个应该能够处理大数据的应用程序。在 200,000 行上,必须根据 300 个值(200,000 x 300 矩阵)计算缺失值。我相信,但如果我错了,请纠正我,C++ 会明显更快。

好吧,如果你从一个大文件中读取,你的进程将主要是 IO-bound,所以 Python 和 C 之间的时间可能不会有很大的不同。

以下代码...

result = []
for line in open('test.txt'):
    result.append(line.count('NA'))

...似乎运行起来和我在 C 中可以一起破解的任何东西一样快,尽管它使用了一些我不太熟悉的优化算法。

处理 200,000 行只需要不到一秒钟的时间,尽管我很想看看您是否可以编写一个更快的 C 函数。


更新

如果您想在 C 中执行此操作,并最终得到一个 Python 列表,那么使用Python/C API自己构建列表可能更有效,而不是构建一个std::vector然后转换为 Python 列表。

仅返回从 0 到 99 的整数列表的示例...

// hack.c

#include <python2.7/Python.h>

PyObject* foo(const char* filename)
{
    PyObject* result = PyList_New(0);
    int i;

    for (i = 0; i < 100; ++i)
    {
        PyList_Append(result, PyInt_FromLong(i));
    }

    return result;
}

编译...

$ gcc -c hack.c -fPIC
$ ld -o hack.so -shared hack.o -lpython2.7

使用示例...

>>> from ctypes import *
>>> dll = CDLL('./hack.so')
>>> dll.foo.restype = py_object
>>> dll.foo('foo')
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, ...]
于 2013-06-02T20:29:27.760 回答
3

基本上,从动态加载的库中返回 C++ 对象并不是一个好主意。要vector在 Python 代码中使用 C++,您必须教 Python 处理 C++ 对象(这包括对象的二进制表示,它可以随新版本的 C++ 编译器或 STL 改变)。

ctypes允许您使用 C 类型与库进行交互。不是 C++。

也许问题可以通过 解决boost::python,但使用纯 C 进行交互看起来更可靠。

于 2013-06-02T17:36:43.307 回答