r - for循环中的for循环？

Question

我有两个数据框：

df1<- as.data.frame(matrix(1:15, ncol=5))
df2<- as.data.frame(matrix(30:44,ncol=5))

通过使用两个数据框，我想计算 zscore。功能是：

z = (X - u)/ O

df1 包含所有 X 值，df2 数据框的每一行都包含用于计算平均值和 sd 的值。我生成一个循环，为 df1 第一列中的每个值计算 z 分数。但现在我的问题是：如何计算整个数据帧的 z 分数？

test <- list()
for (i in 1:nrow(df1) {
  zscore<- (df1[i,1] - (apply(df2[i,],1,mean))) / (apply(df2[i,],1,sd))
  test[[i]] <- matrix(zscore)
  i <- 1+1
}

谢谢你们！

score 8 · Accepted Answer

[我认为你在这里的行/列倒退了。z 分数通常应用于变量，R 期望在列中。我在下面写的内容遵循通常的约定。如果您真的想按行标准化，请相应地进行更改。]

sweep()是您的通用朋友。我们计算均值和标准差，然后将它们从数据框中扫描（在这种情况下减去）df1：

## compute column means and sd
mns <- colMeans(df2)     ## rowMeans if by rows
sds <- apply(df2, 2, sd) ## 2 -> 1 if by rows

## Subtract the respective mean from each column
df3 <- sweep(df1, 2, mns, "-")  ## 2 -> 1 if by rows
## Divide by the respective sd
df3 <- sweep(df3, 2, sds, "/")  ## 2 -> 1 if by rows

这使：

R> df3
   V1  V2  V3  V4  V5
1 -30 -30 -30 -30 -30
2 -29 -29 -29 -29 -29
3 -28 -28 -28 -28 -28

df3我们可以通过以矢量化方式对的第一列进行计算来检查这是否有效：

R> (df1[,1] - mean(df2[,1])) / sd(df2[,1])
[1] -30 -29 -28

对于这种特殊情况，也可以使用该scale()函数并提供您自己的center和scale、各自的均值和标准差

R> scale(df1, center = mns, scale = sds)
      V1  V2  V3  V4  V5
[1,] -30 -30 -30 -30 -30
[2,] -29 -29 -29 -29 -29
[3,] -28 -28 -28 -28 -28
attr(,"scaled:center")
V1 V2 V3 V4 V5 
31 34 37 40 43 
attr(,"scaled:scale")
V1 V2 V3 V4 V5 
 1  1  1  1  1

r - for循环中的for循环？

1 回答 1

Related

Reference