r - R转换代码以在共享内存中运行

Question

以下代码有助于了解最佳集群的数量。

set.seed(123)

# function to compute total within-cluster sum of square 
wss <- function(k) {
  kmeans(df, k, nstart = 10 )$tot.withinss
}

# Compute and plot wss for k = 1 to k = 15
k.values <- 1:15

# extract wss for 2-15 clusters
wss_values <- map_dbl(k.values, wss)

plot(k.values, wss_values,
       type="b", pch = 19, frame = FALSE, 
       xlab="Number of clusters K",
       ylab="Total within-clusters sum of squares")

参考：https ://uc-r.github.io/

目标是将其转换为在具有多个内核的共享内存中运行，以便快速完成。fviz_nbclust尝试使用此方法，但速度极慢。

方法/尝试：

首先，创建wss要调用的方法mclapply

parallel.wss <- function(i, k) {
    set.seed(101)
    kmeans(df, k, nstart=i)$tot.withinss
}

这i是并行启动的数量，k实际上k.values是我们需要尝试找到最优的集群数量。

k.values <- 1:15

kmean_results <- mclapply(c(25,25,25,25), k.values, FUN=parallel.wss)

但收到以下警告：

Warning message:
In mclapply(c(25, 25, 25, 25), k.values, FUN = parallel.wss) :
  all scheduled cores encountered errors in user code

看kmean_results物体：

head(kmean_results) [[1]] [1] "kmeans(df, k, nstart = i) 中的错误：\n 在 'x' 和 'centers' 中的列数必须相同\n" attr(,"class ") [1] "尝试错误" attr(,"条件")

score 1 · Accepted Answer

，foreach你可以做

ncores <- parallel::detectCores(logical = FALSE)
cl <- parallel::makeCluster(ncores)
doParallel::registerDoParallel(cl)
library(foreach)
wss_values2 <- foreach(k = k.values, .combine = 'c') %dopar% {
  kmeans(df, k, nstart = 10)$tot.withinss
}
parallel::stopCluster(cl)

如果将kmeans调用包装在函数中，则需要将所有变量作为参数（df和k）传递。

r - R转换代码以在共享内存中运行

1 回答 1

Related

Reference