问题标签 [gapply]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - SparkR gapply - 函数返回多行 R 数据帧
假设我想执行如下操作:
其中函数的返回有多行。需要明确的是,文档中的示例(遗憾地与 Spark 文档的大部分内容相呼应,其中示例非常简单)并不能帮助我确定这是否会按照我的预期进行处理。
我希望这样做的结果是,对于在 DataFrame 中创建的 k 个组,每个组具有 n_k 个输出行,gapply() 调用的结果将具有 sum(1..k, n_k) 行,其中关键为键 k 中的每个组的每个 n_k 行复制值...但是,模式字段向我表明这不是处理方式-实际上它表明它要么希望将结果推送到单行。
希望这很清楚,尽管是理论上的(对不起,我不能分享我的实际代码示例)。有人可以验证或解释如何实际处理这样的功能吗?
dataframe - 在 Sparkr 中使用 gapply 时声明输出模式
我想gapply
根据https://spark.apache.org/docs/latest/sparkr.html#gapply使用
问题是我要返回一个包含 2 个数据框的列表。
返回(列表(df1,df2))
在这种情况下如何声明输出模式?
r - gapply 有时会返回重复的组?
我正在运行一些代码,其相关实质是:
不幸的是,对于 的某些值id
,nrow
计算不正确。与(在数据的子集上)运行相比:
然后运行(上面命令gapply_df
的collect
ed 结果在哪里gapply
):
我注意到(左边)n
产生的有时是实际正确(右边)的倍数(这里是 2x 或 3x)。gapply
n
N
这可能是什么原因造成的,如何解决?我担心这nrow
实际上给出了正确的答案(毕竟应该在本地调用它data.frame
),并且我的数据已被复制/三重复制,这意味着我的其余分析也可能是错误的。
抱歉,我无法提供可重现的示例;这是我的sessionInfo()
:
与. Zeppelin
_spark
2.1.1
r - Bizdays 不排除周末
我正在尝试按相对员工寿命计算利用率。我需要在记录时间的最早日期和最远日期之间分配该员工可用的总小时数。从那里我将使用它作为利用率=工作时间/总时间的除数。
在测试 bizdays 功能时,我尝试了一个简单的例子。
函数没有返回正确的工作日数的任何原因?我预计 5 个工作日,因为 2/07 是星期五,所以应该只包括 1 周。
目标是在以下函数中使用 bizdays,该函数将应用于带有 gapply 的分组 df。
我将以这种方式应用该功能。不幸的是,它返回一个错误,提示它无法分配大小为 4687 gb 的向量。这是一个单独的问题,我希望有人能指出。
其中 group 是分组的 df。
r - 应用于分组数据框中的组的两个日期之间的工作日数
我正在尝试在分组的 df 上使用 gapply 来获取项目时间输入的时间表。
下面我想得到一个列,该列将根据他们预订时间的最早日期和他们预订时间的最晚日期之间的工作时间为一个人提供可用的工作时间。
我测试了我的功能以确保它按预期工作。
我不明白他们如何提供不同的输出。
我知道 gapply 和我写的函数有一些基本的东西我并不真正理解。gapply 文档说我应该得到一个数据框输出。我想将那个输出与我的原始数据结合起来,这样我就可以计算人们的利用率。
任何想法将不胜感激。