因此,我正在关注有关在此处iml
找到的并行运行计算的小插图中的示例。但是,我有几个我不理解的问题。
首先,在示例中,他同时调用future
库和future.callr
库,然后创建一个具有 2 个内核的 PSOCK 集群,如下所示:
library("future")
library("future.callr")
# Creates a PSOCK cluster with 2 cores
plan("callr", workers = 2)
但是,这对我来说根本不起作用......如果我使用plan("callr", workers = 2)
then,当我尝试进行任何计算时,它只会永远挂起,直到我终止进程。
相反,我正在使用plan(cluster)
,这至少似乎完成了计算。但是,如果我继续按照小插图中的示例来计算交互强度,则处理时间确实要快得多……但是现在挂钟时间要慢得多。下面的代码概述了这一点:
library("iml")
library("randomForest")
library("future") # used for parallel computing
library("bench") # used to measure system time
# Get data
data("Boston", package = "MASS")
X <- Boston[which(names(Boston) != "medv")]
# create randomForest model
rf <- randomForest(medv ~ ., data = Boston)
# iml predictor
predictor <- Predictor$new(rf, data = X, y = Boston$medv)
# run interaction calc sequentially
system_time({
plan(sequential)
Interaction$new(predictor)
})
# process = 15.9s real = 11.2s
# run interaction calc in parallel
system_time({
plan(cluster, workers = 2)
Interaction$new(predictor)
})
# process = 760ms real = 15.1s
因此,如上所示,处理时间要快得多。但实时速度明显变慢,这似乎有点违背并行计算的目的!?当您增加变量/观察值的数量时,这个问题似乎变得更加普遍。当我使用具有 10 个变量和 300 个观察值的数据集时,没有并行的实时时间 = ~30s,并行时间 = ~50s。
我的问题是,这里发生了什么?我是否遗漏了一些关于并行计算的基本概念,还是我实施错误?为什么在进行并行计算时挂钟(实时)时间会慢得多?
cores
[奖金问题]和有什么区别workers
?该future
包有 2 个名为availableCores
and的函数availableWorkers
,但我不确定有什么区别?