问题标签 [multidplyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
65 浏览

r - 你能在 R 中并行化面板操作吗?

在我的 R 脚本中,我使用 pmdplyr 函数mutate_cascade()tlag()改变我的数据,其中包含超过 300 万条记录,因此代码非常慢,但它可以工作。为了加快速度,我尝试添加 multidplyr 的并行处理功能。但它抛出了错误:小标题中的所有列都必须是向量。x 列.是一个multidplyr_party_df对象。 那是因为不可能在 multidplyr 集群上运行 pmdplyr pibble 吗?我是 pmdplyr 和 multidplyr 的新手,所以也许我只是做错了什么?

我得到一个import_data带有变量的合并数据集uuid, location_id, import_date, customer_name, total_value。异常导入可能会导致巨大的峰值,total_value因此我的代码试图平衡这个值的极不可能的波动(这是相对于每个客户的):

0 投票
0 回答
39 浏览

r - 使用 multidplyr 并行化 group_walk 操作

是否可以使用 并行化dplyr::group_walk对分组数据的操作multidplyr

在第一次尝试一般性问题时,我不会提供代表,但如果它有帮助,我可以。

我有很多人的多个时间序列,我想有效地为每个人生成每个变量的图。

我的代码看起来像这样:

plot_function()的每人出口一个地块。它工作正常,但它很长,我必须重复它以进行多种测量(热量、湿度等)。所以我想知道是否有一种方法可以使用multidplyr看起来像这样的东西来加速这个过程:

有没有办法做这样简单的事情来加快我的进程?

在此先感谢您的帮助:)

0 投票
1 回答
404 浏览

r - 并行计算,在 dplyr 中哪个替代 tidyr::complete?

我正在尝试并行化管道。在管道中有一个 tidyr 命令(“tidyr::complete”)。一旦并行运行,这就会破坏代码,因为无法识别对象类。

dplyr 中是否有替代方法可以完成?

串行

并行(失败)

这是错误信息

0 投票
1 回答
52 浏览

r - R传播数据框

IN R语言如何将data1转换为data2

我尝试使用 spread、gather、dplyr、apply ......但是......

0 投票
1 回答
181 浏览

r - 用于 summarise_at 的 R multidplyr 可以解决吗?

我想使用multidplyr,它还没有任何summarise_at。我有数百甚至数千,所以 summarise_at 是必要的,但不幸的是,在 multidplyr 中不可用。

寻找替代方案来解决它。

我什至试过这个

0 投票
1 回答
84 浏览

r - 使用 multdplyr 将不同的 dplyr::mutate cols 发送到不同的核心?

我有一个函数应用于不同的坐标集,以在我的 tibble 中创建四个新列。该函数的启动时间相当长(将基因组加载到 RAM 中,将 tibble 转换为 Granges,并检索序列)但相对较快,因此 100 和 1,000,000 个序列之间没有太大区别。有没有办法将每个 col 发送mutate到不同的核心,以便可以同时处理它们?我考虑过使用pivot_long然后group+partition但这让我思考是否有不同的方法来实现这一点。一种multi_mutate
(考虑到额外坐标的成本很小,我实际上并不期望乘法器分区/收集在我的情况下会节省时间,但是如果我可以避免旋转的时间成本,它仍然相对较小,并且在我的代码,那会很酷。)

0 投票
1 回答
137 浏览

r - is.data.frame(.l) 中的错误:找不到对象“组”

不确定在没有可重复的示例数据的情况下你们是否都能帮助我,但我在运行下面的代码时遇到了问题。我正在尝试使用 multidplyr 包,但它似乎找不到我的专栏。我正在运行以下代码:

一切都运行到模型 <- 正确,但它在那里失败,说它找不到对象组。这是 by_group 数据框的样子。

在此处输入图像描述

0 投票
1 回答
71 浏览

r - 合并多个不同长度的表并在R中形成一个表

我正在使用管道工 api 作为 api。我有多个子表,其中所有表都与主键(study_id)连接,我想将所有表与单个主键合并以形成一个表。有些表有不同的长度

例如:- countries_of_origin_table 和 countries_of_recruitment_table 有不同的长度表

我试过这个来合并所有表但没有用

请帮我

先感谢您

0 投票
0 回答
52 浏览

r - 使用并行处理的函数进行并行处理?

我正在使用 multidplyr 包(我的数据集,map和)在语法MyFnc中进行并行处理。dplyr但是,MyFnc也通过paralleldoSnow库使用并行处理。

在这种情况下,我可以有效地使用并行处理吗?从技术上讲,这样的代码会发生什么?

谢谢,亲切的问候。

0 投票
1 回答
29 浏览

r - 如何按 x 和 y 行合并两个数据框,但列应该并排(df1$x)(df2$y)?

我有两个具有相同名称的列和行的数据框。我想按行合并它们,但从 df$x 和 df$y 开始,列需要并排。

到目前为止,我尝试了但没有得到所需的输出。

输出

所需输出