问题标签 [multidplyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - multidplyr:试用自定义功能
我正在尝试学习multidplyr::do()
在集群上运行自定义功能。考虑这个简单的自包含示例。例如,我试图将我的自定义函数myWxTest
应用于数据集中的每个common_dest
(超过 50 个航班的目的地)flight
:
到目前为止一切顺利(但我只是复制了小插图中的示例)。现在,我必须将自定义函数发送到每个节点:
但我得到:
最终,我想申请myWxTest
每个子组:
r - 用于并行分组预测的乘数和预言机:checkForRemoteErrors 中的错误(lapply(cl,recvResult))
我愿意使用multidplyr和predict进行平行预测。考虑以下数据
虽然我能够使用每组顺序预测
我无法并行化它。到目前为止,我已经尝试过这里partition
建议的andcollect
命令
这给了我一个错误
或者像下面这样
这给了我以下错误
因此,我不知道如何进行。任何建议都非常受欢迎。先感谢您。
Ps.:这是我的sessionInfo()
r - multidplyr 和 group_by () 和 filter()
我有以下数据框,我的目的是找到所有具有不同用法但类型相同的 ID。
如果我跑
我得到了预期的结果。但是我的原始数据框有超过 200 万行。所以我想用我所有的核心来运行这个操作。
我用multidplyr尝试了这段代码:
但随后出现以下消息:
后
和
后
将整个操作实施到 multidplyr 的正确方法是什么?非常感谢。
r - 重构和格式化数据框列
C1
CONC
是T1 ( ) 处的浓度 ( ) TIME
,以此类推。这就是我想要的输出:
dfin
有更多的列,Cx
其中Tx
x 是浓度读数的数量。
r - 使用 Pracma Package for Moving Average 中的 findpeak 函数对峰值进行分组识别 获取错误 MISSING VALUE WHERE TRUE/FALSE
可重现的数据如下图所示:
数据说明:
第 1 列:标签(分组数据)。
第 2 列:温度数据数据。
第 3 列: 的移动平均线Column 2
。
在这里,当我计算findpeak
for Column 2
(Temp) 时没有错误。但是,当我在数据框中的任何列中传递Moving Average`` in the
findpeak 函数Missing value where TRUE/FALSE NA NA` 时,我对错误一无所知。请指导我! I am getting error of **Missing Value TRUE/FALSE as shown below**.
[Error Message][1]
From my understanding error says.But when i check the column for
i did'nt find any
运行上述代码后,我得到以下错误。
if (npeaks > 0 && npeaks < nrow(X)) { 中的错误:需要 TRUE/FALSE 的缺失值
r - 将数据框分组为具有相同列值的 12 组
我有一个包含大约 15 列和超过 300 万行的大型数据集。
因为数据集太大了,我想用multidplyr
它。
由于数据的原因,不可能将我的数据框分成 12 个部分。假设有列col1
,col2
每列都有几个不同的值,但它们重复(在每一列中分别)。
如何制作 12 个(或n
)类似大小的组,每个组都包含在 和 中具有相同值的col1
行col2
?
示例:假设 incol1
foo
和 in 中的一个可能值col2
是bar
。然后将它们分组,具有此值的所有行都将在一个组中。
所以这个问题是有道理的,总是有超过 12 种col1
和的独特组合col2
。
如果这是 python,我会尝试用 for 和 while 循环做一些事情,但既然是这样R
,可能还有另一种方法。
r - multidplyr :将功能分配给集群
(见下面的工作解决方案)
我想使用 multidplyr 来并行化一个函数:
然后我得到:
如何将源函数分配给每个内核?
===================
这是完美的脚本:
必须提取要更新的值,并将结果转换为数据框
必须设置集群并分配源函数
r - R multidplyr:如何将包分配给集群
我正在使用包multidplyr,您可以在其中将数据拆分到 dplyr 管道内的多个核心上。您可以使用 为核心分配值和功能cluster_assign_value()
,但问题是如何将包分配给集群?因为它应该能够在函数中使用包。
我期待类似的东西,cluster_assign_package()
但我找不到这样的功能。
r - pmap_dfr 的 multidplyr 错误:错误:元素 5 不是向量(环境)
[这也在multidplyr github页面上报道]
我正在尝试将 multidplyr_0.0.0.9000 与 purrr_0.2.4.9000 中的 dplyr_0.7.4.9000 和 pmap_dfr 一起使用。以下代码(不使用 multidplyr)工作正常:
当我尝试使用 multidplyr 对网格进行分区时:
我Error: Element 5 is not a vector (environment)
从 pmap_dfr()得到错误
我还从 partition() 收到以下警告,正如 github 上所报告的那样:group_indices_.grouped_df ignores extra arguments
。不确定这是否相关。
r - 在 dplyr::do 中使用 multidplyr 调用带有参数的函数
我正试图用它multidplyr
来加速residuals
从regression
健康中恢复过来。我创建了一个function
适合regression
模型以获得 的residuals
,除了数据之外,它还获得了另外两个参数。
这是function
:
这是我将尝试我的multidplyr
方法的示例数据:
这是multidplyr
方法:
但是,这会引发此错误:
所以我想我将参数传递给func
from的方式do
是错误的。
知道什么是正确的方法吗?