3

例如,我有这三个数据集(在我的例子中,它们更多并且有很多变量):

data_frame1 <- data.frame(a=c(1,5,3,3,2), b=c(3,6,1,5,5), c=c(4,4,1,9,2))
data_frame2 <- data.frame(a=c(6,0,9,1,2), b=c(2,7,2,2,1), c=c(8,4,1,9,2))
data_frame2 <- data.frame(a=c(0,0,1,5,1), b=c(4,1,9,2,3), c=c(2,9,7,1,1))

在每个数据帧上,我想添加一个变量,该变量是对该数据帧上现有变量的转换产生的。我会通过一个循环来做到这一点。例如:

datasets <- c("data_frame1","data_frame2","data_frame3")
vars <- c("a","b","c")
for (i in datasets){
    for (j in vars){
        # here I need a code that create a new variable with transformed values
        # I thought this would work, but it didn't...
        get(i)$new_var <- log(get(i)[,j])
    }
}

你对此有一些有效的建议吗?

此外,如果还可以new_var通过字符串分配新列名(在这种情况下),那对我来说会很棒,这样我就可以通过嵌套在其他两个中的另一个 for 循环来创建新变量。

希望我没有太纠结于解释我的问题。

提前致谢。

4

2 回答 2

7

您可以将数据框放在一个列表中,并使用lapply它们一一进行处理。所以在这种情况下不需要使用循环。

例如,您可以这样做:

data_frame1 <- data.frame(a=c(1,5,3,3,2), b=c(3,6,1,5,5), c=c(4,4,1,9,2))
data_frame2 <- data.frame(a=c(6,0,9,1,2), b=c(2,7,2,2,1), c=c(8,4,1,9,2))
data_frame3 <- data.frame(a=c(0,0,1,5,1), b=c(4,1,9,2,3), c=c(2,9,7,1,1))

ll <- list(data_frame1,data_frame2,data_frame3)
lapply(ll,function(df){
  df$log_a <- log(df$a)          ## new column with the log a
  df$tans_col <- df$a+df$b+df$c  ## new column with sums of some columns or any other           
                                 ##   transformation
  ###  .....
  df

})

dataframe1 变为:

[[1]]
  a b c     log_a tans_col
1 1 3 4 0.0000000        8
2 5 6 4 1.6094379       15
3 3 1 1 1.0986123        5
4 3 5 9 1.0986123       17
5 2 5 2 0.6931472        9
于 2013-01-20T22:01:52.507 回答
0

我有同样的需求,也想更改我的实际数据框列表中的列。

我在这里找到了一个很好的方法(purrr::map2问题中的方法适用于具有不同列的数据框),然后是

list2env(list_of_dataframes ,.GlobalEnv)
于 2019-03-12T22:00:56.140 回答