0

有没有一种更有效的方法可以通过名称检查列是否存在,如果存在则返回列,如果不存在则返回 na?

现在我正在使用以下功能:

TryGetColumn <- function(x, column.name, column.names, value.if.not.exists) {
    if (column.name %in% column.names) {
        x[, column.name]
    } else {
        value.if.not.exists
    }
}

df <- data.frame(a = 1:5, b = 6:10)
col.names <- colnames(df)
ab <- TryGetColumn(df, "a", col.names, NA) + TryGetColumn(df, "b", col.names, NA)
ac <- TryGetColumn(df, "a", col.names, NA) + TryGetColumn(df, "c", col.names, NA)

ab
#[1]  7  9 11 13 15
ac
#[1] NA NA NA NA NA

编辑: 根据Gregor的回答,我重写了以下代码:

col.names <- c("a", "b", "c")
col.matches <- as.list(col.names %in% colnames(df))
names(col.matches) <- col.names

TryGetColumn <- function(col.name) if (col.matches[[col.name]]) df[, col.name] else NA

ab <- TryGetColumn("a") + TryGetColumn("b")
ac <- TryGetColumn("a") + TryGetColumn("c")

现在它基于关联数组(列表)并且应该比每次TryGetColumn调用的线性查找更快。

4

1 回答 1

4

我会用match.

match(x = c("mpg", "disp", "blarg"), table = names(mtcars), nomatch = NA)
# [1]  1  3 NA

如果您编写包装器,则无需分别传递数据框及其列:

column_index <- function(data, column.names, value.if.not.exists = NA) {
    match(x = column.names, table = names(data), nomatch = value.if.not.exists)
}

编辑

糟糕,我以为你想要列索引。您想返回一个完整的列。为此,您的功能看起来不错,我只是稍微简化一下:

TryGetColumn <- function(x, column.name, value.if.not.exists = NA) {
    if (column.name %in% names(x)) {
        return(x[, column.name])
    } 
    return(value.if.not.exists)
}

如果您经常使用它并且真的担心计算时间,那么一次检查一堆列名会更快(如我的答案的顶部),然后只将那里的列拉出数据框并根据NA需要制作尽可能多的列。但是,如果您担心计算时间,我敢打赌,无论您在做什么,这个特定步骤都不会让您放慢速度。

于 2015-03-24T21:28:52.827 回答