对于每个并行处理任务,由于任务协调,都会产生一些开销。 pmap
将映射函数分别应用于不同线程中的每个元素。随着返回的惰性序列pmap
被消费,消费者线程必须与生产者线程协调。方式pmap
被定义,这种开销发生在每个产生的元素上。
考虑到这一点,当您用于pmap
计算一个简单的函数(例如对一个数字进行平方,如您的示例中所示)时,线程协调其活动所需的时间会超过实际计算该值所需的时间。正如文档字符串所说,pmap
“仅对 f 的时间主导协调开销的计算密集型函数有用”(添加了 empasis)。在这些情况下,无论您拥有多少核心,pmap
都将花费更长的时间。map
要真正看到 的好处pmap
,您必须选择一个“更难”的问题。在某些情况下,这可能就像将输入序列划分为块一样简单。然后可以处理块序列,pmap
然后运行concat
以获得最终输出。
例如:
(defn chunked-pmap [f partition-size coll]
(->> coll ; Start with original collection.
(partition-all partition-size) ; Partition it into chunks.
(pmap (comp doall ; Map f over each chunk,
(partial map f))) ; and use doall to force it to be
; realized in the worker thread.
(apply concat))) ; Concatenate the chunked results
; to form the return value.
但是,在最后对序列进行分区和连接块也有开销。例如,至少在我的机器上,对于你的例子来说,chunked-pmap
仍然表现map
不佳。不过,它可能对某些功能有效。
另一种提高效率的方法pmap
是将工作划分在整个算法的不同位置。例如,假设我们对计算点对之间的欧几里得距离感兴趣。虽然并行化 square 函数已被证明是无效的,但我们可能会幸运地并行化整个距离函数。实际上,我们希望在更高级别上划分任务,但这就是要点。
简而言之,并行算法的性能对任务划分的方式很敏感,并且您选择的级别对于您的测试来说过于精细。