我一直在寻找方法来轻松地对一些简单的分析代码进行多线程处理,因为我注意到 numpy 它只使用一个内核,尽管它应该是多线程的。
我知道 numpy 是为多个内核配置的,因为我可以看到使用 numpy.dot 的测试使用了我所有的内核,所以我只是将 mean 重新实现为一个点积,它运行得更快。是否有某种原因意味着无法自行运行这么快?我发现较大数组的行为类似,尽管该比率比我的示例中显示的 3 接近 2。
我一直在阅读一堆关于类似 numpy 速度问题的帖子,显然它的方式比我想象的要复杂。任何见解都会有所帮助,我宁愿只使用均值,因为它更具可读性且代码更少,但我可能会切换到基于点的均值。
In [27]: data = numpy.random.rand(10,10)
In [28]: a = numpy.ones(10)
In [29]: %timeit numpy.dot(data,a)/10.0
100000 loops, best of 3: 4.8 us per loop
In [30]: %timeit numpy.mean(data,axis=1)
100000 loops, best of 3: 14.8 us per loop
In [31]: numpy.dot(data,a)/10.0 - numpy.mean(data,axis=1)
Out[31]:
array([ 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
0.00000000e+00, 1.11022302e-16, 0.00000000e+00,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
-1.11022302e-16])