0

假设我有一个使用 RevoScaleR 生成的巨大源 XDF 文件。我想通过对列 A、B、C 上的源条目进行分组来创建一个新的目标 XDF,并计算列 D 上的总和、最小值、最大值、平均值、标准偏差。

让我们假设目标数据太大而无法放入内存。我应该如何进行?我在文档中找不到有关按操作分组的太多信息。

4

2 回答 2

3

如果你想创建一个新的 xdf 文件,我建议使用“RevoPemaR”库,它包含在 ML 服务器中。如果您添加一个可重现的示例会很好,但答案可能是这样的:

library(RevoPemaR)
byGroupPemaObj <- PemaByGroup()
groupVals <- pemaCompute(
pemaObj = byGroupPemaObj, 
data = "input.xdf",
outData = "output.xdf", 
groupByVar =  c("A", "B", "C"), 
computeVars = c("D"),
    fnList = list(
     sum= list(FUN = sum, x = NULL, na.rm = TRUE),
     min= list(FUN = min, x = NULL, na.rm = TRUE)
     max= list(FUN = max, x = NULL, na.rm = TRUE),
     mean= list(FUN = mean, x = NULL, na.rm = TRUE),
     sd = list(FUN = sd, x = NULL, na.rm = TRUE)
    )
)

但是您还有另一个选择,即 rxSummary。对于每个变量:

rxSummary(D~F(A), 
    data = "input.xdf" ,
    byGroupOutFile = "out.xdf", 
    summaryStats = c( "Mean", "StdDev", "Min", "Max", "Sum")
)
于 2018-06-13T15:13:33.917 回答
2

dplyrXdf允许您对 Xdf 文件执行类似的 dplyr 操作。

library(dplyrXdf)
src <- RxXdfData("src.xdf")
dest <- src %>%
    group_by(A, B, C) %>%
    summarise(sum=sum(D), min=min(D), max=max(D), mean=mean(D), sd=sd(D))
于 2018-06-13T15:27:31.020 回答