5

我想通过 data.frame 的不同列(列名中有一个共同的模式)迭代一个函数。为了对 data.frame 进行子集化,我使用了这个有效的代码:

df[,grep("abc", colnames(df))]

但我不知道如何使用 for 循环或 lapply 函数将我的函数 f(x) 应用于与此模式匹配的所有列。

我正在使用的功能是:

compress= function(x) {
  aggregate(df[,x,drop=FALSE],
        list(hour = with(df,paste(dates(Time),
                                         sprintf("%d:00:00",hours(Time))))),
        sum,na.rm=TRUE)
}

其中 df (数据框)和 Time 可以自己设置为变量,但目前我不需要这样做。

谢谢朱莉娅

4

1 回答 1

6

你基本上已经掌握了。只需apply在子集数据的列上使用以在列上apply运行f2在第二个参数中apply指示列,而不是1指示apply在行上):

apply( df[,grep("abc", colnames(df))] , 2 , f )

或者,如果您不想强迫您df使用 a matrix(这将发生apply),您可以lapply按照您的建议以几乎相同的方式使用...

lapply( df[,grep("abc", colnames(df))] , f )

from 的返回值lapply将是一个列表,每一列都有一个元素。data.frame您可以通过用 a 包装lapply呼叫将其转回a data.frame,例如data.frame( lapply(...) )

例子

# This function just multiplies its argument by 2
f <- function(x) x * 2

df <- data.frame( AB = runif(5) , AC = runif(5) , BB = runif(5) )


apply( df[,grep("A", colnames(df))] , 2 , f )
#            AB        AC
#[1,] 0.4130628 1.3302304
#[2,] 0.2550633 0.1896813
#[3,] 1.5066157 0.7679393
#[4,] 1.7900907 0.5487673
#[5,] 0.7489256 1.6292801


data.frame( lapply( df[,grep("A", colnames(df))] , f ) )
#         AB        AC
#1 0.4130628 1.3302304
#2 0.2550633 0.1896813
#3 1.5066157 0.7679393
#4 1.7900907 0.5487673
#5 0.7489256 1.6292801

# Note the important difference between the two methods...
class( data.frame( lapply( df[,grep("A", colnames(df))] , f ) ) )
#[1] "data.frame"
class( apply( df[,grep("A", colnames(df))] , 2 , f ) )
#[1] "matrix"

第二次编辑

对于您要运行的示例函数,将其重写为一个函数可能更容易,该函数接受df作为输入和您要操作的列名向量。在此示例中,该函数返回一个列表,该列表的每个元素都包含一个聚合data.frame

compress= function( df , x ) {
  lapply( x , function(x){
  aggregate(df[,x,drop=FALSE],
        list(hour = with(df,paste(dates(Time),
                                         sprintf("%d:00:00",hours(Time))))),
        sum,na.rm=TRUE)
    }
  )
}

要运行该函数,您只需调用它,将 data.frame 和 colnames 向量传递给它...

compress( df , names(df)[ grep("abc", names(df) ) ] ) 
于 2013-08-15T12:49:42.353 回答