问题标签 [snow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
299 浏览

r - SNOW 的插入符号不在特定数据集上使用并行处理器

我有两个数据框(这里是为了重现性)trainFin1,并且trainFin2都是从同一个更大的数据集中采样的。

我正在尝试使用包在多处理器rpart上对它们运行交叉验证。caretdoSNOW

有趣的是,trainFin1它在 4 个处理器上得到了很好的训练(大约 25 秒内完成)。但trainFin2似乎只卡在一个处理器上(在 Windows 任务管理器窗口中观察到),即使在将近半小时后我也看不到它完成处理。

我的代码如下

请注意,我避免使用formulaintrain而是将原始数据提供给它,以避免caret将我的序数变量转换为虚拟分类变量(请参阅此问题的答案)。当我使用formula(即train(Happiness ~ ., data = trainFin2, method = "rpart2", trControl = fitControl))时,并行处理似乎没有问题。但我想避免formula按照其他问题使用。

关于如何在不将预测变量转换为分类假人的情况下并行处理这些数据的任何建议?

0 投票
1 回答
179 浏览

r - R + Snow + Fortran + MPI 崩溃

这是我之前的问题的后续。

我创建了一个使用 MPI Fortran 模块的 R 包。这是模块:

这是 R 函数:

我能够在 Rstudio 中编译和加载包。

现在我试图用这个 R 代码调用我的功能:

但是当我尝试运行它时,Rstudio 崩溃了。我究竟做错了什么?


这是一个更简单的例子(也不起作用)

我创建了一个包HelloFMPINAMESPACE有这个

test.f90

hello.R

我可以使用 Rstudio 构建和加载包。当我运行此代码时:

Rstudio 崩溃

崩溃

0 投票
1 回答
282 浏览

r - R并行计算:选择将哪些对象分配到核心中

我有一个与 r 并行计算有关的问题。我正在使用类似的东西:

如何识别当前环境中的某些特定对象以分配到处理器内核中并用于某些功能?我不需要 R 将环境中的整个对象复制到不同的核心中,而只需要复制一些选定的对象。在我的项目中,我有很大的 R 对象,我不需要将它们复制/分发到核心中,以避免 ram 问题。有解决方案吗?

谢谢

0 投票
1 回答
502 浏览

r - sfLapply & apply.rolling 在 xts 对象上 - 导致错误:下标超出范围

我的目标是使用相同的数据结构和快速的速度将 5 只股票(xts 对象)的每日回报映射到 90 天回顾期的滚动标准差(计算过去 90 天回报的 SD) . 使用核心功能“lapply”的方法效果很好。但是,由于某些原因,降雪包中的并行方法“sfLapply”不起作用。这是插图:

初始化库并模拟数据集和参数:

使用 lapply 计算滚动 SD 得到有效的解决方案:

这是不起作用的并行版本:

上面的代码返回以下错误:

我不确定为什么会收到此错误,因为我什至没有编写自己的 for 循环。请指出任何可能的错误,任何想法将不胜感激并感谢您的帮助!

环境:R:3.2.0/ RStudio:0.99.472 / 雪:0.3-13 / 降雪:1.84-6/ xts:0.9-7/ PerfomanceAnalytics:1.4.3541

可以使用 PS runSD 代替 apply.rolling,使用 apply.rolling 是因为它可以使用不同的功能。

0 投票
1 回答
626 浏览

r - clusterR 返回“参数长度为零”

我已经使用 Rraster包很长时间了,但现在我真的无法解决这个 clusterR 问题。我必须计算 netCDF 栅格的 SPI 索引。这是针对每个单元格完成的,获取单元格时间序列并返回该单元格的 SPI 索引时间序列。

示例输入文件(大约 4MB)可以在这里找到。

请参阅以下代码:

traceback()在这种情况下完全没用。怎么了?

0 投票
1 回答
127 浏览

r - 并行作业雪的最大工人/奴隶数量

我正在 Windows 机器上运行带有雪后端的 foreach 循环。我有 8 个内核可以使用。rscript 是通过嵌入在 python 脚本中的系统调用执行的,因此也会有一个活动的 python 实例。

没有 #workers=#cores 而不是 #workers<#cores 有什么好处,所以系统进程或 python 实例总是有一个开放的空间吗?

它在 #workers=#cores 的情况下成功运行,但我是否会因为 r worker 实例使内核(最大可能线程)饱和而降低性能?

0 投票
1 回答
306 浏览

r - 如何设置 AWS 集群以使用 openCPU?

我有两台 EC2 机器:主机和从机。为用户生成 SSH 密钥ubuntu并保存到~/.ssh/authorized_keys两台机器上。因此,我可以像这样以用户身份使用来自主节点的集群ubuntu

但是当我通过openCPU它调用它时,它会给出permission denied消息。

目前我正在考虑两种可能的解决方案:

  1. opencpu为用户添加 SSH 密钥。但我不知道如何像opencpu非交互式用户那样做
  2. 使 master 无需任何 SSH 密钥即可访问 slave

我更喜欢第一种方式,在这里肯定需要帮助。但是第二种方式也可以。

0 投票
2 回答
4780 浏览

r - 如何提高处理大型栅格堆栈的 R 处理速度?

我正在处理大型光栅堆栈,我需要重新采样和剪辑它们。我阅读了 Tiff 文件列表并创建了堆栈:

这个过程需要几天才能完成!但是,使用 ArcPy 和 python 会快得多。我的问题是:为什么 R 中的过程如此缓慢,是否有办法加快该过程?(我使用雪包进行并行处理,但这也无济于事)。这些是rs层:

0 投票
1 回答
625 浏览

r - 维数不正确 - 并行 R 计算

在 R 中使用 tm 包和并行计算时遇到问题,我不确定我是在做一些愚蠢的事情还是它是一个错误。

我创建了一个可重现的小例子:

如果我使用这个示例运行一个简单的 lapply,我会得到预期的结果,没有任何问题:

但是如果我并行运行它,我会得到错误:

第一个错误:维数不正确

0 投票
2 回答
2701 浏览

r - R(windows)中大栅格的并行处理

我正在使用 doSNOW 包,更具体地说是使用 parLapply 函数对大型栅格数据集(操作系统:Windows x64)列表执行重新分类(以及随后的其他操作)。

代码看起来有点像这个简约的例子:

该代码实际上按预期工作。当我想继续处理结果时会出现问题。我收到此错误消息:

据我了解,由于栅格很大,它们被保存在磁盘上的临时文件中。而当我关闭雪团时,这些文件就无法再访问了。

所以我的问题是,集群关闭后如何访问数据?我可以继续使用这种方法吗?

谢谢!