r - 在 R 中使用子集时如何忽略大小写

Question

在 R 中使用子集函数时如何忽略大小写？

eos91corr.data <- subset(test.data,select=c(c(X,Y,Z,W,T)))

我想选择名称为 x、y、z、w、t 的列。我该怎么办？

谢谢

score 4 · Accepted Answer

如果您可以在没有该subset()功能的情况下生活，则该tolower()功能可能会起作用：

dat <- data.frame(XY = 1:5, x = 1:5, mm = 1:5,
    y = 1:5, z = 1:5, w = 1:5, t = 1:5, r = 1:5)
dat[,tolower(names(dat)) %in% c("xy","x")]

但是，这将data.frame按照列在原始数据集中的顺序返回 a dat：两者

dat[,tolower(names(dat)) %in% c("xy","x")]

和

dat[,tolower(names(dat)) %in% c("x","xy")]

将产生相同的结果，尽管目标名称的顺序已颠倒。

如果您希望结果中的列按目标向量的顺序排列，则需要稍微花哨一些。以下两个命令都data.frame以目标向量的顺序返回 a 列（即，结果将不同，列切换）：

dat[,sapply(c("x","xy"),FUN=function(foo)which(foo==tolower(names(dat))))]
dat[,sapply(c("xy","x"),FUN=function(foo)which(foo==tolower(names(dat))))]

score 2 · Accepted Answer

grep在识别要选择的列名时，您可以使用正则表达式和函数来忽略大小写。一旦您确定了所需的列名，您就可以将它们传递给subset.

如果您的数据是

dat <- data.frame(xy = 1:5, x = 1:5, mm = 1:5, y = 1:5, z = 1:5,
  w = 1:5, t = 1:5, r = 1:5)
#   xy x mm y z w t r
# 1  1 1  1 1 1 1 1 1
# 2  2 2  2 2 2 2 2 2
# 3  3 3  3 3 3 3 3 3
# 4  4 4  4 4 4 4 4 4
# 5  5 5  5 5 5 5 5 5

然后

(selNames <- grep("^[XYZWT]$", names(dat), ignore.case = TRUE, value = TRUE))
# [1] "x" "y" "z" "w" "t"

subset(dat, select = selNames)
#   x y z w t
# 1 1 1 1 1 1
# 2 2 2 2 2 2
# 3 3 3 3 3 3
# 4 4 4 4 4 4
# 5 5 5 5 5 5

编辑如果您的列名长于一个字母，则上述方法效果不佳。因此，假设您可以在向量中获得所需的列名，您可以使用以下内容：

upperNames <- c("XY", "Y", "Z", "W", "T")

(grepPattern <- paste0("^", upperNames, "$", collapse = "|"))
# [1] "^XY$|^Y$|^Z$|^W$|^T$"
(selNames2 <- grep(grepPattern, names(dat), ignore.case = TRUE, value = TRUE))
# [1] "xy" "y"  "z"  "w"  "t" 
subset(dat, select = selNames2)
#   xy y z w t
# 1  1 1 1 1 1
# 2  2 2 2 2 2
# 3  3 3 3 3 3
# 4  4 4 4 4 4
# 5  5 5 5 5 5

score 0 · Accepted Answer

'stringr' 库是所有这些功能的一个非常简洁的包装器。它有 'ignore.case' 选项，如下所示：

     also, you may want to consider using match not subset.

r - 在 R 中使用子集时如何忽略大小写

3 回答 3

Related

Reference