54

我想使用正则表达式根据它们的名称选择多个列。我正在尝试使用dplyr包的管道语法来做到这一点。我检查了其他主题,但只找到了关于单个字符串的答案。

以 R 为底:

library(dplyr)    
mtcars[grepl('m|ar', names(mtcars))]
###                      mpg am gear carb
### Mazda RX4           21.0  1    4    4
### Mazda RX4 Wag       21.0  1    4    4

但是它不适用于选择/包含方式:

mtcars %>% select(contains('m|ar'))
### data frame with 0 columns and 32 rows

怎么了?

4

3 回答 3

104

您可以使用matches

 mtcars %>%
        select(matches('m|ar')) %>%
        head(2)
 #              mpg am gear carb
 #Mazda RX4      21  1    4    4
 #Mazda RX4 Wag  21  1    4    4

根据?select文档

'matches(x, ignore.case = TRUE)':选择名称与正则表达式'x'匹配的所有变量</p>

虽然contains使用单个字符串

mtcars %>% 
       select(contains('m'))
于 2015-03-12T19:10:29.317 回答
7

你可以使用containsfrom package dplyr,如果你给出一个文本选项的向量,像这样:

mtcars %>% 
       select(contains(c("m", "ar"))
于 2021-09-24T07:09:10.830 回答
3

您仍然可以使用基础 R中的grepl() 。

df <- mtcars[ , grepl('m|ar', names(mtcars))]

...它返回一个子集数据框,df,包含列名mar列名中的列

于 2021-07-19T13:12:26.383 回答