这个答案将涵盖许多与现有答案相同的元素,但是这个问题(将列名传递给函数)经常出现,以至于我希望有一个更全面地涵盖事物的答案。
假设我们有一个非常简单的数据框:
dat <- data.frame(x = 1:4,
y = 5:8)
我们想编写一个函数来创建一个新列,该列是列和z
的总和。x
y
这里一个非常常见的绊脚石是自然(但不正确)的尝试通常如下所示:
foo <- function(df,col_name,col1,col2){
df$col_name <- df$col1 + df$col2
df
}
#Call foo() like this:
foo(dat,z,x,y)
这里的问题是df$col1
不评估表达式col1
。它只是在df
字面上查找名为的列col1
。此行为在?Extract
“递归(类似列表)对象”部分中进行了描述。
最简单且最常推荐的解决方案是简单地从$
to切换[[
并将函数参数作为字符串传递:
new_column1 <- function(df,col_name,col1,col2){
#Create new column col_name as sum of col1 and col2
df[[col_name]] <- df[[col1]] + df[[col2]]
df
}
> new_column1(dat,"z","x","y")
x y z
1 1 5 6
2 2 6 8
3 3 7 10
4 4 8 12
这通常被认为是“最佳实践”,因为它是最难搞砸的方法。将列名作为字符串传递是尽可能明确的。
以下两个选项更高级。许多流行的软件包都使用了这些技术,但要很好地使用它们需要更多的小心和技巧,因为它们可能会引入微妙的复杂性和无法预料的故障点。Hadley 的 Advanced R 书的这一部分是解决其中一些问题的绝佳参考。
如果您真的想避免用户输入所有这些引号,一种选择可能是将裸露的、未加引号的列名转换为字符串,使用deparse(substitute())
:
new_column2 <- function(df,col_name,col1,col2){
col_name <- deparse(substitute(col_name))
col1 <- deparse(substitute(col1))
col2 <- deparse(substitute(col2))
df[[col_name]] <- df[[col1]] + df[[col2]]
df
}
> new_column2(dat,z,x,y)
x y z
1 1 5 6
2 2 6 8
3 3 7 10
4 4 8 12
坦率地说,这可能有点傻,因为我们确实在做与 in 相同的事情new_column1
,只是需要做一些额外的工作来将裸名称转换为字符串。
最后,如果我们想变得更花哨,我们可能会决定与其传递要添加的两列的名称,不如更灵活地允许两个变量的其他组合。在这种情况下,我们可能会求助于eval()
在涉及两列的表达式上使用:
new_column3 <- function(df,col_name,expr){
col_name <- deparse(substitute(col_name))
df[[col_name]] <- eval(substitute(expr),df,parent.frame())
df
}
只是为了好玩,我仍然使用deparse(substitute())
新列的名称。在这里,以下所有操作都将起作用:
> new_column3(dat,z,x+y)
x y z
1 1 5 6
2 2 6 8
3 3 7 10
4 4 8 12
> new_column3(dat,z,x-y)
x y z
1 1 5 -4
2 2 6 -4
3 3 7 -4
4 4 8 -4
> new_column3(dat,z,x*y)
x y z
1 1 5 5
2 2 6 12
3 3 7 21
4 4 8 32
所以简短的回答基本上是:将 data.frame 列名作为字符串传递并用于[[
选择单个列。只有在你真的知道自己在做什么的情况下才开始深入研究eval
,等。substitute