r - 使用 plyr 或矩阵代数从列中减去分组平均值

Question

我正在尝试编写一些可并行化的代码（探索plyr和doMC）来计算并从数据帧的列中减去分组平均值。我很难让plyr语法正确。

这是带有工作循环的脚本：

data = data.frame(x = rnorm(100),y = rnorm(100),ID = round(runif(100)*10))
data = data[with(data,order(ID)),]
dm = matrix(rep(NA,nrow(data)*(ncol(data)-1)),nrow(data),(ncol(data)-1))

for (i in 1:(ncol(data)-1)){
    m = summaryBy(data[,i]~ID,data=data,fun=mean)
    d = data.frame(data[,i],ID=data$ID)
    a = merge(d,m,by="ID")
    dm[,i] = a[,2]-a[,3]
    }

但是我尝试使用 ddply 通过数据的列名来打破它，它给了我一条错误消息。这是我的非工作代码：

dmf = function(i){
    m = summaryBy(data[,i]~ID,data=data,fun=mean)
    d = data.frame(data[,i],ID=data$ID)
    a = merge(d,m,by="ID")
    dm = a[,2]-a[,3]
    as.data.frame(dm)
    }

dm = ddply(.data=data,.fun = dmf,.variables = colnames(data))

>Error in .subset(x, j) : invalid subscript type 'list'

有人对此有解决方案吗？

或者，如果这对矩阵可行，我将非常感谢矩阵直觉比我更好的人提供的那种解决方案。

score 4 · Accepted Answer

为了充分利用plyr，我将colwise和基础功能结合起来scale。此外，如果需要，让我们ddply在最高级别处理并行化：

dm <- ddply(data, "ID", colwise(scale, center = TRUE, scale = FALSE),
            .parallel = TRUE)

r - 使用 plyr 或矩阵代数从列中减去分组平均值

1 回答 1

Related

Reference