0

因此,我正在关注有关在此处iml找到的并行运行计算的小插图中的示例。但是,我有几个我不理解的问题。

首先,在示例中,他同时调用future库和future.callr库,然后创建一个具有 2 个内核的 PSOCK 集群,如下所示:

library("future")
library("future.callr")
# Creates a PSOCK cluster with 2 cores
plan("callr", workers = 2)

但是,这对我来说根本不起作用......如果我使用plan("callr", workers = 2)then,当我尝试进行任何计算时,它只会永远挂起,直到我终止进程。

相反,我正在使用plan(cluster),这至少似乎完成了计算。但是,如果我继续按照小插图中的示例来计算交互强度,则处理时间确实要快得多……但是现在挂钟时间要慢得多。下面的代码概述了这一点:

library("iml")
library("randomForest")
library("future") # used for parallel computing
library("bench") # used to measure system time

# Get data
data("Boston", package = "MASS")
X <- Boston[which(names(Boston) != "medv")]

# create randomForest model
rf <- randomForest(medv ~ ., data = Boston)


# iml predictor
predictor <- Predictor$new(rf, data = X, y = Boston$medv)

# run interaction calc sequentially
system_time({
  plan(sequential)
  Interaction$new(predictor)
})
# process = 15.9s  real = 11.2s

# run interaction calc in parallel
system_time({
  plan(cluster, workers = 2)
  Interaction$new(predictor)
})
# process = 760ms  real = 15.1s

因此,如上所示,处理时间要快得多。但实时速度明显变慢,这似乎有点违背并行计算的目的!?当您增加变量/观察值的数量时,这个问题似乎变得更加普遍。当我使用具有 10 个变量和 300 个观察值的数据集时,没有并行的实时时间 = ~30s,并行时间 = ~50s。

我的问题是,这里发生了什么?我是否遗漏了一些关于并行计算的基本概念,还是我实施错误?为什么在进行并行计算时挂钟(实时)时间会慢得多?

cores[奖金问题]和有什么区别workers?该future包有 2 个名为availableCoresand的函数availableWorkers,但我不确定有什么区别?

4

1 回答 1

0

并行不是万能的。如果将数据传入和传出工作人员所需的时间比并行处理数据所节省的时间要长,那么挂钟时间会更长。 cores表示有多少物理 CPU 内核存在或可用于分配。 workers是您希望在可用或分配的进程中分配多少进程cores

您还没有告诉我们您的 Mac 的处理器芯片是什么以及它有多少物理内核,因此很难评论workers创建的最佳数量。

除此之外,我可能会建议同时查看bigparallelrparallel打包以了解有关使用的更多信息并查看它们是否更适合您的需求。

于 2020-06-23T19:04:22.437 回答