问题标签 [multidplyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
718 浏览

r - multidplyr:试用自定义功能

我正在尝试学习multidplyr::do()在集群上运行自定义功能。考虑这个简单的自包含示例。例如,我试图将我的自定义函数myWxTest应用于数据集中的每个common_dest(超过 50 个航班的目的地)flight

到目前为止一切顺利(但我只是复制了小插图中的示例)。现在,我必须将自定义函数发送到每个节点:

但我得到:

最终,我想申请myWxTest每个子组:

0 投票
0 回答
451 浏览

r - 用于并行分组预测的乘数和预言机:checkForRemoteErrors 中的错误(lapply(cl,recvResult))

我愿意使用multidplyrpredict进行平行预测。考虑以下数据

虽然我能够使用每组顺序预测

我无法并行化它。到目前为止,我已经尝试过这里partition建议的andcollect命令

这给了我一个错误

或者像下面这样

这给了我以下错误

因此,我不知道如何进行。任何建议都非常受欢迎。先感谢您。

Ps.:这是我的sessionInfo()

0 投票
1 回答
2064 浏览

r - multidplyr 和 group_by () 和 filter()

我有以下数据框,我的目的是找到所有具有不同用法但类型相同的 ID。

如果我跑

我得到了预期的结果。但是我的原始数据框有超过 200 万行。所以我想用我所有的核心来运行这个操作。

我用multidplyr尝试了这段代码:

但随后出现以下消息:

将整个操作实施到 multidplyr 的正确方法是什么?非常感谢。

0 投票
1 回答
621 浏览

r - 重构和格式化数据框列

C1CONC是T1 ( ) 处的浓度 ( ) TIME,以此类推。这就是我想要的输出:

dfin有更多的列,Cx其中Txx 是浓度读数的数量。

0 投票
0 回答
97 浏览

r - 使用 Pracma Package for Moving Average 中的 findpeak 函数对峰值进行分组识别 获取错误 MISSING VALUE WHERE TRUE/FALSE

可重现的数据如下图所示:

数据说明:
第 1 列:标签(分组数据)。
第 2 列:温度数据数据。
第 3 列: 的移动平均线Column 2

在这里,当我计算findpeakfor Column 2(Temp) 时没有错误。但是,当我在数据框中的任何列中传递Moving Average`` in thefindpeak 函数Missing value where TRUE/FALSE NA NA` 时,我对错误一无所知。请指导我! I am getting error of **Missing Value TRUE/FALSE as shown below**.
[Error Message][1] From my understanding error says
.But when i check the column fori did'nt find any

运行上述代码后,我得到以下错误。
if (npeaks > 0 && npeaks < nrow(X)) { 中的错误:需要 TRUE/FALSE 的缺失值

0 投票
2 回答
1071 浏览

r - 将数据框分组为具有相同列值的 12 组

我有一个包含大约 15 列和超过 300 万行的大型数据集。

因为数据集太大了,我想用multidplyr它。

由于数据的原因,不可能将我的数据框分成 12 个部分。假设有列col1col2每列都有几个不同的值,但它们重复(在每一列中分别)。

如何制作 12 个(或n)类似大小的组,每个组都包含在 和 中具有相同值的col1col2

示例:假设 incol1 foo和 in 中的一个可能值col2bar。然后将它们分组,具有此值的所有行都将在一个组中。

所以这个问题是有道理的,总是有超过 12 种col1和的独特组合col2

如果这是 python,我会尝试用 for 和 while 循环做一些事情,但既然是这样R,可能还有另一种方法。

0 投票
1 回答
1406 浏览

r - multidplyr :将功能分配给集群

(见下面的工作解决方案)

我想使用 multidplyr 来并行化一个函数:

然后我得到:

如何将源函数分配给每个内核?

===================

这是完美的脚本:

必须提取要更新的值,并将结果转换为数据框

必须设置集群并分配源函数

0 投票
2 回答
470 浏览

r - R multidplyr:如何将包分配给集群

我正在使用包multidplyr,您可以在其中将数据拆分到 dplyr 管道内的多个核心上。您可以使用 为核心分配值和功能cluster_assign_value(),但问题是如何将包分配给集群?因为它应该能够在函数中使用包。

我期待类似的东西,cluster_assign_package()但我找不到这样的功能。

0 投票
1 回答
264 浏览

r - pmap_dfr 的 multidplyr 错误:错误:元素 5 不是向量(环境)

[这也在multidplyr github页面上报道]

我正在尝试将 multidplyr_0.0.0.9000 与 purrr_0.2.4.9000 中的 dplyr_0.7.4.9000 和 pmap_dfr 一起使用。以下代码(不使用 multidplyr)工作正常:

当我尝试使用 multidplyr 对网格进行分区时:

Error: Element 5 is not a vector (environment)从 pmap_dfr()得到错误

我还从 partition() 收到以下警告,正如 github 上所报告的那样group_indices_.grouped_df ignores extra arguments。不确定这是否相关。

0 投票
1 回答
377 浏览

r - 在 dplyr::do 中使用 multidplyr 调用带有参数的函数

我正试图用它multidplyr来加速residualsregression健康中恢复过来。我创建了一个function适合regression模型以获得 的residuals,除了数据之外,它还获得了另外两个参数。

这是function

这是我将尝试我的multidplyr方法的示例数据:

这是multidplyr方法:

但是,这会引发此错误:

所以我想我将参数传递给funcfrom的方式do是错误的。

知道什么是正确的方法吗?