这是因为 pmap 旨在为每个核心进行大量计算,而不是很多简单的计算。如果您使用简单的功能,则沿着处理器移动信息的开销大于好处。相反,测试这段代码(我在 i7 中使用 4 个内核运行它):
function fast(x::Float64)
return x^2+1.0
end
function slow(x::Float64)
a = 1.0
for i in 1:1000
for j in 1:5000
a+=asinh(i+j)
end
end
return a
end
info("Precompilation")
map(fast,linspace(1,1000,1000))
pmap(fast,linspace(1,1000,1000))
map(slow,linspace(1,1000,10))
pmap(slow,linspace(1,1000,10))
info("Testing slow function")
@time map(slow,linspace(1,1000,10)) #3.69 s
@time pmap(slow,linspace(1,1000,10)) #0.003 s
info("Testing fast function")
@time map(fast,linspace(1,1000,1000)) #52 μs
@time pmap(fast,linspace(1,1000,1000)) #775 s
对于很多非常小的迭代的并行化,您可以使用@parallel,在文档中搜索它。