问题标签 [snow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1181 浏览

r - 随机森林引导训练和森林生成

我有大量随机森林的训练数据(暗淡:47600811*9)。我想获取多个(假设 1000)维度为 10000*9 的自举样本(每次运行中获取 9000 个负类和 1000 个正类数据点)并迭代地为所有这些树生成树,然后将所有这些树组合成 1 个森林。下面给出了所需代码的粗略概念。有人可以指导我如何从我的实际 trainData 生成随机样本并以最佳方式迭代地为它们生成树吗?这将是很大的帮助。谢谢

我不确定这是否是从实际 trainData 一次又一次(1000 次)生成子集的最佳方式。

0 投票
0 回答
58 浏览

r - 在雪簇上初始化 RcppZiggurat RNG-Generator

我正在尝试在雪簇上使用 RcppZiggurat 包的 RNG。为了在每个节点上播种 RNG,我使用了 clusterSetupRNG 中内置的 L'Ecuyer 算法。然而,随机数的序列在每个节点上都是相同的。即使我在没有 clusterSetupRNG-command 的情况下运行它,代码的结果也完全相同。

这是我尝试过的:

有谁知道我怎样才能完成这项工作?当然,我总是可以求助于标准的 RNG rnorm,但如果 R​​cppZiggurat 的速度也能在集群上运行,那就太好了。

非常感谢你的帮助!

0 投票
2 回答
1655 浏览

r - R、dplyr 和 snow:如何并行化使用 dplyr 的函数

假设我想以并行方式myfunctionmyDataFrame. 假设这otherDataFrame是一个具有两列的数据框:COLUNM1_odf并且COLUMN2_odf由于某些原因在myfunction. 所以我想写一个这样的代码parApply

这里的问题是 R 无法识别COLUMN1_odfCOLUMN2_odf即使我将它们插入clusterExport. 我怎么解决这个问题?有没有办法“导出”所有snow需要的对象以便不枚举它们?

编辑 1:我添加了一条注释(在上面的代码中),以otherDataFrame指定myfunction.

编辑 2:我添加了一些伪代码以进行概括myfunction:它现在使用全局数据框(aGlobalDataFrame和另一个函数otherFunction

0 投票
1 回答
936 浏览

r - `R snow`中的`stopCluster`冻结

我在集群计算机中运行蒙特卡罗模拟snowR. 一切顺利,直到R达到stopClusterR冻结并最终超过了墙时间。我没有看到 的问题stopCluster

以下是我的R脚本的简化版本。

上面的脚本保存test_stack.R在目录下monte-carlo/Rpbs我发送到服务器的脚本如下。

Rout下面列出了文件的一部分。它停在stopCluster()

0 投票
3 回答
4064 浏览

r - 由于“无法打开连接”错误,R 无法生成集群(多节点)

我正在尝试并行运行 R,它可以在本地主机上完美运行。现在我想切换到多节点设置并在同一个网络中创建多个虚拟机。但是,当我尝试设置集群时,它失败并出现以下错误:

最小的可重现示例:

我也尝试过在 localhost 上打开套接字,但它也失败了(但 localhost 上的集群只能工作),并显示相同的错误消息:

仅当我添加server = TRUE选项时,socketConnection 才有效,但我不确定此选项是否适用于 makeCluster 以及如何设置它。

我全新安装了 Ubuntu Server 16.04,iptables 规则为空(全部接受),ssh 双向工作,所以我不知道为什么它不起作用。

0 投票
0 回答
48 浏览

r - 为什么我在 R 中的并行 foreach 循环比简单的 for 循环花费更多时间?

我是 R 新手,我正在尝试使用 foreach 循环和 doSNOW 包并行化嵌套的 for 循环,但是 foreach 循环比 for 循环花费更多时间

她是我的代码:

初始化变量

for 循环

并行 foreach 循环


结果

警告信息:

0 投票
2 回答
669 浏览

r - 使用 foreach 和 doSNOW 并行调用外部程序:如何导入结果?

我正在使用 R 在具有多个节点和多个内核的集群上并行调用外部程序。外部程序需要三个输入数据文件并生成一个输出文件(所有文件都存储在同一个子文件夹中)。为了并行运行程序(或者更确切地说以并行方式调用它),我最初将该foreach函数与doParallel库一起使用。只要我只是在单个节点上使用多个内核,它就可以正常工作。

但是,我想使用具有多个内核的多个节点。因此,我相应地修改了我的代码以doSNOW结合使用该库foreach(我尝试了Rmpiand doMPI,但我没有设法使用这些库在多个节点上运行代码)。这工作正常,即外部程序现在确实在多个节点(具有多个核心)上运行,并且集群日志文件显示它产生了所需的结果。然而,我现在面临的问题是,外部程序不再将结果/输出文件存储在主节点上/工作目录的指定子文件夹中(当我使用doParallel. 这使我无法将结果导入 R。

事实上,如果我检查相关文件夹的内容,它不包含任何输出文件,尽管日志文件清楚地显示外部程序运行成功。我猜它们存储在不同的节点上(?)。 我必须对我的foreach功能或设置集群的方式进行哪些修改,才能将这些文件保存在主节点上/工作目录中指定的子文件夹中?

这里有一些示例 R 代码,以展示我在做什么:

我的集群 pbs 脚本如下所示:

0 投票
1 回答
133 浏览

r - 避免 R 循环并与雪并行

我有一个大循环,需要很长时间(约 100 天)。我希望通过雪库加快速度,但我对应用语句并不满意。这只是循环的一部分,但如果我能弄清楚这部分,其余的应该很简单。我对一堆应用语句或循环没问题,但是一个使用函数来获取对象'p'的应用语句将是理想的。

原始数据

原始循环

0 投票
0 回答
52 浏览

r - 如何使用带 r 循环的雪来并行化

我有一个大循环,需要很长时间(约 100 天)。我希望通过雪库加快速度,但我对应用语句并不满意。这只是循环的一部分,但如果我能弄清楚这部分,其余的应该很简单。我对一堆应用语句或循环没问题,但是一个使用函数来获取对象'p'的应用语句将是理想的。

原始数据

原始循环

0 投票
1 回答
437 浏览

r - 使用 as.formula、SE dplyr 和 lapply 时,foreach 包范围 R 环境如何?

我有一个函数,我可以动态地将多个公式构建为字符串并将它们转换为带有as.formula. doSNOW然后,我在并行过程中使用and调用该函数,foreach并通过dplyr::mutate_.

当我使用并行运行时lapply(formula_list, as.formula)出现错误could not find function *custom_function*,尽管在本地运行时它工作正常。但是,当我使用lapply(formula_list, function(x) as.formula(x)它时,它可以并行和本地工作。

为什么?理解这里的环境的正确方法是什么以及编码它的“正确”方法是什么?

我确实收到一条警告,上面写着:In e$fun(obj, substitute(ex), parent.frame(), e$data) : already exporting variable(s): *custom_func*

下面是一个最小的可重现示例。

编辑:在我原来的帖子标题中,我写道我正在使用 nse,但我的真正意思是使用标准评估。哎呀。我已经相应地改变了这一点。