我一直在寻找汇总 xdf 文件中不同块中存在的值,但我无法让它工作。
你们中的任何人都有一个代码片段,其中您在 rxDataStep 的转换中使用了任何应用函数吗?
我一直在寻找汇总 xdf 文件中不同块中存在的值,但我无法让它工作。
你们中的任何人都有一个代码片段,其中您在 rxDataStep 的转换中使用了任何应用函数吗?
使用 transformFunc 应用变换函数。您必须在工作节点上安装需要的软件包。使用 transformObjects 为 transformFunc 提供函数。
xformFunction <- function(data) {
require(dplyr)
df <- as.data.frame(data)
df <- dplyr::summarise(dplyr::group_by(df, z))
return(df)
}
rxDataStep(inData = input_xdf, outFile = t_xdf, transformFunc = xformFunction, transformPackages = c("dplyr"), overwrite = TRUE)
聚合将在节点上,因此在使用 Spark ComputeContext 时会得到重复的 z 值。