r - makeForkCluster 和 nvblas（由 LD_PRELOAD 加载）

翻译自：https://stackoverflow.com/questions/66877254 2021-03-30T19:24:02.920

21 次

我想加快一个缓慢的 R 脚本。

我测试了两种不同的策略：

使用makeForkCluster的多线程。这个策略让我提高了性能，减少了执行时间。
GPU 卸载。我正在使用替换 blas 库。( nvblas )。为了注入库，我使用LD_PRELOAD方法。

这两种方法给了我很好的性能提升，但我想同时使用它们，因为 GPU 没有完全加载。

我尝试将 MT makeForkCluster 和 nvblas 一起使用。我注意到 nvblas 不会拦截来自线程的调用（由 makeForkCluster 分叉）。

我不明白为什么会这样，如果我从 makeForkCluster 切换到 makeCluster 它可以工作。但我想使用 Fork 方法（不需要序列化）。

示例代码：

library(foreach)
library(parallel)

ncpus = 10
N = 20

#cl <- parallel::makeForkCluster(ncpus, outfile="")
cl <- parallel::makeCluster(ncpus, outfile="")
doParallel::registerDoParallel(cl)

test = function(i){
 message("started",i)
 ORDER = 8*(2^i)
 A = matrix(rnorm(ORDER^2), nrow=ORDER)
 B = matrix(rnorm(ORDER^2), nrow=ORDER)
 cputime = system.time({C = A %*% B})[3]
 message("completed",i)
 return(cputime)
}

foreach(i = 1:N, .combine = 'c') %dopar% {
  test(i)
}

你有什么建议吗？

r - makeForkCluster 和 nvblas（由 LD_PRELOAD 加载）

0 回答 0

Related

Reference