parallel-processing - 玩具示例的 pmap 慢

Question

我正在 Julia 中测试并行性，看看我的机器上是否有加速（我正在选择一种语言来实现新算法）。我不想花大量时间写一个巨大的例子，所以我在发布版本 Julia 0.4.5（Mac OS X 和双核）上做了以下测试：

$ julia -p2

julia> @everywhere f(x) = x^2 + 10
julia> @time map(f, 1:10000000)
julia> @time pmap(f, 1:10000000)

pmap比 map (>20x) 慢得多，并且分配的内存远远超过 10x。我究竟做错了什么？

谢谢。

score 10 · Accepted Answer

这是因为 pmap 旨在为每个核心进行大量计算，而不是很多简单的计算。如果您使用简单的功能，则沿着处理器移动信息的开销大于好处。相反，测试这段代码（我在 i7 中使用 4 个内核运行它）：

function fast(x::Float64)
    return x^2+1.0
end

function slow(x::Float64)
    a = 1.0
    for i in 1:1000
        for j in 1:5000
            a+=asinh(i+j)
        end
    end
    return a
end

info("Precompilation")
map(fast,linspace(1,1000,1000)) 
pmap(fast,linspace(1,1000,1000))
map(slow,linspace(1,1000,10)) 
pmap(slow,linspace(1,1000,10))

info("Testing slow function")
@time map(slow,linspace(1,1000,10)) #3.69 s
@time pmap(slow,linspace(1,1000,10)) #0.003 s
info("Testing fast function")
@time map(fast,linspace(1,1000,1000)) #52 μs
@time pmap(fast,linspace(1,1000,1000)) #775 s

对于很多非常小的迭代的并行化，您可以使用@parallel，在文档中搜索它。

parallel-processing - 玩具示例的 pmap 慢

1 回答 1

Related

Reference