我需要针对时间关键型机器人应用程序优化循环中的函数调用。我的脚本在 python 中,它通过 ctypes 与我编写的 C++ 库接口,然后调用微控制器库。
瓶颈是向微控制器缓冲区添加位置-速度-时间点。根据我的时间检查,通过 ctypes 调用 C++ 函数大约需要0.45
几秒钟,而在 C++ 端,调用函数需要0.17
几秒钟。我需要以某种方式减少这种差异。
这是相关的 python 代码,其中数据是点的二维数组,而库是通过 ctypes 加载的:
data_np = np.vstack([nodes, positions, velocities, times]).transpose().astype(np.long)
data = ((c_long * 4) * N)()
for i in range(N):
data[i] = (c_long * 4)(*data_np[i])
timer = time()
clibrary.addPvtAll(N, data)
print("clibrary.addPvtAll() call: %f" % (time() - timer))
这是被调用的 C++ 函数:
void addPvtAll(int N, long data[][4]) {
clock_t t0, t1;
t0 = clock();
for(int i = 0; i < N; i++) {
unsigned short node = (unsigned short)data[i][0];
long p = data[i][1];
long v = data[i][2];
unsigned char t = (unsigned char)data[i][3];
VCS_AddPvtValueToIpmBuffer(device(node), node, p, v, t, &errorCode);
}
t1 = clock();
printf("addPvtAll() call: %f \n", (double(t1 - t0) / CLOCKS_PER_SEC));
}
我不是绝对需要使用 ctypes,但我不想每次运行 Python 代码时都必须编译它。