问题
我注意到 foreach/%dopar% 在并行执行任务之前执行顺序,而不是集群的并行设置。如果每个工作人员都需要一个数据集,并且需要 N 秒将数据集传输给工作人员,那么 foreach/%dopar% 会花费#workers * N seconds
设置时间。这对于大量工作人员或大量 N(要传输的大型数据集)来说可能很重要。
我的问题是这是设计使然,还是我在 foreach 或集群生成中缺少某些参数/设置?
设置
- R 2.15.2
- 截至今天(2013 年 1 月 7 日)的最新版本的 foreach/parallel/doParallel
- 视窗 7 x64
例子
library( foreach )
library( parallel )
library( doParallel )
# lots of data
data = eval( rnorm( 100000000 ) )
# make cluster/register - creates 6 nodes fairly quickly
cluster = makePSOCKcluster( 6 , outfile = "" )
registerDoParallel( cluster )
# fire up Task Manager. Observer that each node recieves data sequentially.
# When last node gets data, then all nodes process at the same time
results = foreach( i = 1 : 500 ) %dopar%
{
print( data[ i ] )
return( data[ i ] )
}