我正在使用 concurrent.futures.ThreadPoolExecutor 来查看是否可以从我的四核处理器(具有 8 个逻辑核心)中挤出更多的工作。所以我写了以下代码:
from concurrent import futures
def square(n):
return n**2
def threadWorker(t):
n, d = t
if n not in d:
d[n] = square(n)
def master(n, numthreads):
d = {}
with futures.ThreadPoolExecutor(max_workers=numthreads) as e:
for i in e.map(threadWorker, ((i, d) for i in range(n))):
pass # done so that it actually fetches each result. threadWorker has its own side-effects on d
return len(d)
if __name__ == "__main__":
print('starting')
print(master(10**6, 6))
print('done')
有趣的是,相同的功能,在 for 循环中编写时大约需要一秒钟:
>>> d = {}
>>> for i in range(10**6):
... if i not in d: d[i] = i**2
...而线程池代码需要超过 10 秒。现在我知道它使用了至少 4 个线程,因为我看到每个内核上的处理器负载。但是即使使用共享内存(我可以理解为什么进程可能需要一段时间,由于内存复制),我觉得运行时的这种差异太大了。
有没有人知道为什么这可能需要这么长时间?看起来一个简单的平方运算,它确实是高度可并行化的,真的不应该花这么长时间。这可能是由于字典的数量(如果是,是什么导致那里的放缓?)?
技术细节:
- 蟒蛇 3.3.3
- 四核(8 个带超标题的逻辑核心)CPU
- MAC OSX 10.9.1(小牛队)