我有一个矩阵M
就是这样16384 x 81
。我想计算M * M.t
(结果将是16384x16384
)。
我的问题是:有人可以解释运行时间差异吗?
在 C++中使用OpenCV以下代码需要18 秒
#include <cv.h>
#include <cstdio>
using namespace cv;
int main(void) {
Mat m(16384, 81, CV_32FC1);
randu(m, Scalar(0), Scalar(1));
int64 tic = getTickCount();
Mat m2 = m * m.t();
printf("%f", (getTickCount() - tic) / getTickFrequency());
}
在Python中,下面的代码只需要0.9 秒 18.8 秒(见下面的评论)
import numpy as np
from time import time
m = np.random.rand(16384, 81)
tic = time()
result = np.dot(m, m.T)
print (time() - tic)
在MATLAB中,以下代码需要17.7 秒
m = rand(16384, 81);
tic;
result = m * m';
toc;
我唯一的猜测是这是一个内存问题,并且 Python 能够以某种方式避免交换空间。然而,当我观看top
时,我并没有看到我C++ application
使用了所有的内存,我曾预计这C++
会赢得胜利。感谢您的任何见解。
编辑
在修改我的示例以仅对操作计时后,现在使用 Python 的代码也需要 18 秒。我真的不确定发生了什么,但是如果有足够的内存,它们现在似乎都执行相同的操作。
如果行数为 8192,以下是计时: C++:4.5 秒 Python:4.2 秒 Matlab:1.8 秒