问题标签 [snow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 随机森林引导训练和森林生成
我有大量随机森林的训练数据(暗淡:47600811*9)。我想获取多个(假设 1000)维度为 10000*9 的自举样本(每次运行中获取 9000 个负类和 1000 个正类数据点)并迭代地为所有这些树生成树,然后将所有这些树组合成 1 个森林。下面给出了所需代码的粗略概念。有人可以指导我如何从我的实际 trainData 生成随机样本并以最佳方式迭代地为它们生成树吗?这将是很大的帮助。谢谢
我不确定这是否是从实际 trainData 一次又一次(1000 次)生成子集的最佳方式。
r - 在雪簇上初始化 RcppZiggurat RNG-Generator
我正在尝试在雪簇上使用 RcppZiggurat 包的 RNG。为了在每个节点上播种 RNG,我使用了 clusterSetupRNG 中内置的 L'Ecuyer 算法。然而,随机数的序列在每个节点上都是相同的。即使我在没有 clusterSetupRNG-command 的情况下运行它,代码的结果也完全相同。
这是我尝试过的:
有谁知道我怎样才能完成这项工作?当然,我总是可以求助于标准的 RNG rnorm,但如果 RcppZiggurat 的速度也能在集群上运行,那就太好了。
非常感谢你的帮助!
r - R、dplyr 和 snow:如何并行化使用 dplyr 的函数
假设我想以并行方式myfunction
将myDataFrame
. 假设这otherDataFrame
是一个具有两列的数据框:COLUNM1_odf
并且COLUMN2_odf
由于某些原因在myfunction
. 所以我想写一个这样的代码parApply
:
这里的问题是 R 无法识别COLUMN1_odf
,COLUMN2_odf
即使我将它们插入clusterExport
. 我怎么解决这个问题?有没有办法“导出”所有snow
需要的对象以便不枚举它们?
编辑 1:我添加了一条注释(在上面的代码中),以otherDataFrame
指定myfunction
.
编辑 2:我添加了一些伪代码以进行概括myfunction
:它现在使用全局数据框(aGlobalDataFrame
和另一个函数otherFunction
)
r - `R snow`中的`stopCluster`冻结
我在集群计算机中运行蒙特卡罗模拟snow
和R
. 一切顺利,直到R
达到stopCluster
,R
冻结并最终超过了墙时间。我没有看到 的问题stopCluster
。
以下是我的R
脚本的简化版本。
上面的脚本保存test_stack.R
在目录下monte-carlo/R
。pbs
我发送到服务器的脚本如下。
Rout
下面列出了文件的一部分。它停在stopCluster()
。
r - 由于“无法打开连接”错误,R 无法生成集群(多节点)
我正在尝试并行运行 R,它可以在本地主机上完美运行。现在我想切换到多节点设置并在同一个网络中创建多个虚拟机。但是,当我尝试设置集群时,它失败并出现以下错误:
最小的可重现示例:
我也尝试过在 localhost 上打开套接字,但它也失败了(但 localhost 上的集群只能工作),并显示相同的错误消息:
仅当我添加server = TRUE选项时,socketConnection 才有效,但我不确定此选项是否适用于 makeCluster 以及如何设置它。
我全新安装了 Ubuntu Server 16.04,iptables 规则为空(全部接受),ssh 双向工作,所以我不知道为什么它不起作用。
r - 为什么我在 R 中的并行 foreach 循环比简单的 for 循环花费更多时间?
我是 R 新手,我正在尝试使用 foreach 循环和 doSNOW 包并行化嵌套的 for 循环,但是 foreach 循环比 for 循环花费更多时间
她是我的代码:
初始化变量
for 循环
并行 foreach 循环
结果
警告信息:
r - 使用 foreach 和 doSNOW 并行调用外部程序:如何导入结果?
我正在使用 R 在具有多个节点和多个内核的集群上并行调用外部程序。外部程序需要三个输入数据文件并生成一个输出文件(所有文件都存储在同一个子文件夹中)。为了并行运行程序(或者更确切地说以并行方式调用它),我最初将该foreach
函数与doParallel
库一起使用。只要我只是在单个节点上使用多个内核,它就可以正常工作。
但是,我想使用具有多个内核的多个节点。因此,我相应地修改了我的代码以doSNOW
结合使用该库foreach
(我尝试了Rmpi
and doMPI
,但我没有设法使用这些库在多个节点上运行代码)。这工作正常,即外部程序现在确实在多个节点(具有多个核心)上运行,并且集群日志文件显示它产生了所需的结果。然而,我现在面临的问题是,外部程序不再将结果/输出文件存储在主节点上/工作目录的指定子文件夹中(当我使用doParallel
. 这使我无法将结果导入 R。
事实上,如果我检查相关文件夹的内容,它不包含任何输出文件,尽管日志文件清楚地显示外部程序运行成功。我猜它们存储在不同的节点上(?)。
我必须对我的foreach
功能或设置集群的方式进行哪些修改,才能将这些文件保存在主节点上/工作目录中指定的子文件夹中?
这里有一些示例 R 代码,以展示我在做什么:
我的集群 pbs 脚本如下所示:
r - 避免 R 循环并与雪并行
我有一个大循环,需要很长时间(约 100 天)。我希望通过雪库加快速度,但我对应用语句并不满意。这只是循环的一部分,但如果我能弄清楚这部分,其余的应该很简单。我对一堆应用语句或循环没问题,但是一个使用函数来获取对象'p'的应用语句将是理想的。
原始数据
原始循环
r - 如何使用带 r 循环的雪来并行化
我有一个大循环,需要很长时间(约 100 天)。我希望通过雪库加快速度,但我对应用语句并不满意。这只是循环的一部分,但如果我能弄清楚这部分,其余的应该很简单。我对一堆应用语句或循环没问题,但是一个使用函数来获取对象'p'的应用语句将是理想的。
原始数据
原始循环
r - 使用 as.formula、SE dplyr 和 lapply 时,foreach 包范围 R 环境如何?
我有一个函数,我可以动态地将多个公式构建为字符串并将它们转换为带有as.formula
. doSNOW
然后,我在并行过程中使用and调用该函数,foreach
并通过dplyr::mutate_
.
当我使用并行运行时lapply(formula_list, as.formula)
出现错误could not find function *custom_function*
,尽管在本地运行时它工作正常。但是,当我使用lapply(formula_list, function(x) as.formula(x)
它时,它可以并行和本地工作。
为什么?理解这里的环境的正确方法是什么以及编码它的“正确”方法是什么?
我确实收到一条警告,上面写着:In e$fun(obj, substitute(ex), parent.frame(), e$data) : already exporting variable(s): *custom_func*
下面是一个最小的可重现示例。
编辑:在我原来的帖子标题中,我写道我正在使用 nse,但我的真正意思是使用标准评估。哎呀。我已经相应地改变了这一点。