21

我在具有 8 个多核处理器的 linux 机器上运行 R,并且有一个优化问题,我想通过并行化优化例程本身来加速。重要的是,这个问题涉及 (1) 多个参数,以及 (2)固有的缓慢模型运行。一个相当普遍的问题!

有人知道这种情况下的并行优化器吗?

更具体地说,求解器喜欢nlm()在算法每次在参数空间中迈出一步时运行多个模型评估(每个参数值两个),因此在这些情况下并行化多个模型运行的实例将大大加快速度。健康。

似乎使用该包的代码parallel可以以这样一种方式编写,即用户必须进行最少的代码修改才能从使用nlm()optim()转移到这个并行优化例程。也就是说,似乎可以基本上不做任何更改地重写这些例程,除了多次调用模型的步骤(这在基于梯度的方法中很常见)将并行完成。

理想情况下,像 nlmPara() 这样的东西会采用看起来像

fit <- nlm(MyObjFunc, params0);

并且只需要很小的修改,例如,

fit <- nlmPara(MyObjFunc, params0, ncores=6);

想法/建议?

PS:我已经采取措施加速这些模型运行,但由于各种原因它们很慢(即我不需要关于加速模型运行的建议!;-))。

4

4 回答 4

7

这是一个粗略的解决方案,至少有一些希望。非常感谢 Ben Bolker 指出许多/大多数优化例程允许用户指定的梯度函数。

具有更多参数值的测试问题可能会显示出更显着的改进,但在 8 核机器上,使用并行梯度函数的运行时间大约是串行版本的 70%。请注意,这里使用的粗略梯度近似似乎会减慢收敛速度,因此会增加一些时间。

## Set up the cluster
require("parallel");
.nlocalcores = NULL; # Default to "Cores available - 1" if NULL.
if(is.null(.nlocalcores)) { .nlocalcores = detectCores() - 1; }
if(.nlocalcores < 1) { print("Multiple cores unavailable! See code!!"); return()}
print(paste("Using ",.nlocalcores,"cores for parallelized gradient computation."))
.cl=makeCluster(.nlocalcores);
print(.cl)


# Now define a gradient function: both in serial and in parallel
mygr <- function(.params, ...) {
  dp = cbind(rep(0,length(.params)),diag(.params * 1e-8)); # TINY finite difference
  Fout = apply(dp,2, function(x) fn(.params + x,...));     # Serial 
  return((Fout[-1]-Fout[1])/diag(dp[,-1]));                # finite difference 
}

mypgr <- function(.params, ...) { # Now use the cluster 
  dp = cbind(rep(0,length(.params)),diag(.params * 1e-8));   
  Fout = parCapply(.cl, dp, function(x) fn(.params + x,...)); # Parallel 
  return((Fout[-1]-Fout[1])/diag(dp[,-1]));                  #
}


## Lets try it out!
fr <- function(x, slow=FALSE) { ## Rosenbrock Banana function from optim() documentation.
  if(slow) { Sys.sleep(0.1); }   ## Modified to be a little slow, if needed.
  x1 <- x[1]
  x2 <- x[2]
  100 * (x2 - x1 * x1)^2 + (1 - x1)^2
}

grr <- function(x, slow=FALSE) { ## Gradient of 'fr'
  if(slow) { Sys.sleep(0.1); }   ## Modified to be a little slow, if needed.
  x1 <- x[1]
  x2 <- x[2]
  c(-400 * x1 * (x2 - x1 * x1) - 2 * (1 - x1),
    200 *      (x2 - x1 * x1))
}

## Make sure the nodes can see these functions & other objects as called by the optimizer
fn <- fr;  # A bit of a hack
clusterExport(cl, "fn");

# First, test our gradient approximation function mypgr
print( mypgr(c(-1.2,1)) - grr(c(-1.2,1)))

## Some test calls, following the examples in the optim() documentation
tic = Sys.time();
fit1 = optim(c(-1.2,1), fr, slow=FALSE);                          toc1=Sys.time()-tic
fit2 = optim(c(-1.2,1), fr, gr=grr, slow=FALSE, method="BFGS");   toc2=Sys.time()-tic-toc1
fit3 = optim(c(-1.2,1), fr, gr=mygr, slow=FALSE, method="BFGS");  toc3=Sys.time()-tic-toc1-toc2
fit4 = optim(c(-1.2,1), fr, gr=mypgr, slow=FALSE, method="BFGS"); toc4=Sys.time()-tic-toc1-toc2-toc3


## Now slow it down a bit
tic = Sys.time();
fit5 = optim(c(-1.2,1), fr, slow=TRUE);                           toc5=Sys.time()-tic
fit6 = optim(c(-1.2,1), fr, gr=grr, slow=TRUE, method="BFGS");    toc6=Sys.time()-tic-toc5
fit7 = optim(c(-1.2,1), fr, gr=mygr, slow=TRUE, method="BFGS");   toc7=Sys.time()-tic-toc5-toc6
fit8 = optim(c(-1.2,1), fr, gr=mypgr, slow=TRUE, method="BFGS");  toc8=Sys.time()-tic-toc5-toc6-toc7

print(cbind(fast=c(default=toc1,exact.gr=toc2,serial.gr=toc3,parallel.gr=toc4),
            slow=c(toc5,toc6,toc7,toc8)))
于 2013-03-23T03:04:20.327 回答
4

我是 R 包optimParallel的作者。它提供了基于梯度的优化方法的并行版本optim()。该包的主要功能是optimParallel(),其用法和输出与optim(). 使用optimParallel()可以显着减少优化时间,如下图所示(p是参数的数量)。

在此处输入图像描述

有关更多信息,请参阅https://cran.r-project.org/package=optimParallelhttp://arxiv.org/abs/1804.11058

于 2018-05-03T18:39:53.063 回答
2

由于您尚未接受答案,因此这个想法可能会有所帮助:对于全局优化,该软件包DEoptim()具有用于并行优化的内置选项。好消息是,它易于使用并且文档编写得很好。

cf http://www.jstatsoft.org/v40/i06/paper(目前关闭)

http://cran.r-project.org/web/packages/DEoptim/index.html

注意:差分 Evolglobal 优化器可能仍会遇到本地优化器。

于 2014-04-07T21:24:15.603 回答
0

I used the package doSNOW to run a code on 8 cores. I can just copy&paste the part of the code that refers to this package. Hope it helps!

    # use multicore libraries
      # specify number of cores to use
    cores<- 8
      cluster <- makeCluster(cores, type="SOCK")
      registerDoSNOW(cluster)

      # check how many cores will be used
      ncores <- getDoParWorkers()
    print(paste("Computing algorithm for ", cores, " cores", sep=""))
      fph <- rep(-100,12)

      # start multicore cicle on 12  subsets
      fph <- foreach(i=1:12, .combine='c') %dopar% {
        PhenoRiceRun(sub=i, mpath=MODIS_LOCAL_DIR, masklocaldir=MASK_LOCAL_DIR, startYear=startYear, tile=tile, evismoothopt=FALSE)
      }


  stopCluster(cluster) # check if gives error
  gc(verbose=FALSE)
于 2013-03-20T09:46:17.743 回答