9

我希望能深入了解为什么会发生这种情况,以及我如何才能更有说服力地做到这一点。

当我使用 sapply 时,我希望它返回一个 3x2 矩阵,但它返回一个 2x3 矩阵。为什么是这样?为什么很难将它附加到另一个数据框?

a <- data.frame(id=c('a','b','c'), var1 = c(1,2,3), var2 = c(3,2,1))
out <- sapply(a$id, function(x) out = a[x, c('var1', 'var2')])
#out is 3x2, but I would like it to be 2x3
#I then want to append t(out) (out as a 2x3 matrix) to b, a 1x3 dataframe
b <- data.frame(var3=c(0,0,0))

当我尝试附加这些时,

b[,c('col2','col3')] <- t(out)

我得到的错误是:

Warning message:
In `[<-.data.frame`(`*tmp*`, , c("col2", "col3"), value = list(1,  :
  provided 6 variables to replace 2 variables

尽管以下似乎给出了预期的结果:

rownames(out) <- c('col1', 'col2')
b <- cbind(b, t(out))

我无法对变量进行操作:

b$var1/b$var2

返回

Error in b$var1/b$var2 : non-numeric argument to binary operator

谢谢!

4

3 回答 3

6

扩展 DWin 的答案:查看out对象的结构会有所帮助。它解释了为什么b$var1/b$var2不做你所期望的。

> out <- sapply(a$id, function(x) out = a[x, c('var1', 'var2')])
> str(out)  # this isn't a data.frame or a matrix...
List of 6
 $ : num 1
 $ : num 3
 $ : num 2
 $ : num 2
 $ : num 3
 $ : num 1
 - attr(*, "dim")= int [1:2] 2 3
 - attr(*, "dimnames")=List of 2
  ..$ : chr [1:2] "var1" "var2"
  ..$ : NULL

apply系列函数旨在处理向量和数组,因此在将它们与 data.frames(通常是向量列表)一起使用时需要小心。您可以使用 data.frames 是列表这一事实来为您带来优势lapply

> out <- lapply(a$id, function(x) a[x, c('var1', 'var2')])  # list of data.frames
> out <- do.call(rbind, out) # data.frame
> b <- cbind(b,out)
> str(b)
'data.frame':   3 obs. of  4 variables:
 $ var3: num  0 0 0
 $ var1: num  1 2 3
 $ var2: num  3 2 1
 $ var3: num  0 0 0
> b$var1/b$var2
[1] 0.3333333 1.0000000 3.0000000
于 2010-11-10T03:11:57.797 回答
3

首先是一点 R 符号。如果您查看 的代码sapply,您将找到问题的答案。该sapply函数检查列表长度是否都相等,如果是,它首先“unlist()”它们,然后将该系列列表作为数据参数array()。由于array(如 matrix() )默认情况下按列主要顺序排列其值,这就是你得到的。名单变得对他们有利。如果您不喜欢它,那么您可以定义一个新函数tsapply来返回转置的值:

> tsapply <- function(...) t(sapply(...))
> out <- tsapply(a$id, function(x) out = a[x, c('var1', 'var2')])
> out
     var1 var2
[1,] 1    3   
[2,] 2    2   
[3,] 3    1 

... 3 x 2 矩阵。

于 2010-11-10T01:48:20.890 回答
1

看看 plyr 包中的 ddply

a <- data.frame(id=c('a','b','c'), var1 = c(1,2,3), var2 = c(3,2,1))

library(plyr)
ddply(a, "id", function(x){
    out <- cbind(O1 = rnorm(nrow(x), x$var1), O2 = runif(nrow(x)))
    out
})
于 2010-11-10T15:00:41.717 回答