regex - 如何计算给定字符在一列字符串的每一行中出现的次数？

Question

我有一个 data.frame，其中某些变量包含一个文本字符串。我希望计算每个字符串中给定字符的出现次数。

例子：

q.data<-data.frame(number=1:3, string=c("greatgreat", "magic", "not"))

我希望为 q.data 创建一个新列，其中包含字符串中“a”的出现次数（即 c(2,1,0)）。

我管理的唯一复杂的方法是：

string.counter<-function(strings, pattern){  
  counts<-NULL
  for(i in 1:length(strings)){
    counts[i]<-length(attr(gregexpr(pattern,strings[i])[[1]], "match.length")[attr(gregexpr(pattern,strings[i])[[1]], "match.length")>0])
  }
return(counts)
}

string.counter(strings=q.data$string, pattern="a")

 number     string number.of.a
1      1 greatgreat           2
2      2      magic           1
3      3        not           0

score 168 · Accepted Answer

stringr 包提供的str_count功能似乎可以做你感兴趣的事情

# Load your example data
q.data<-data.frame(number=1:3, string=c("greatgreat", "magic", "not"), stringsAsFactors = F)
library(stringr)

# Count the number of 'a's in each element of string
q.data$number.of.a <- str_count(q.data$string, "a")
q.data
#  number     string number.of.a
#1      1 greatgreat           2
#2      2      magic           1
#3      3        not           0

score 76 · Accepted Answer

如果您不想离开基础 R，这里有一个相当简洁和富有表现力的可能性：

x <- q.data$string
lengths(regmatches(x, gregexpr("a", x)))
# [1] 2 1 0

score 21 · Accepted Answer

nchar(as.character(q.data$string)) -nchar( gsub("a", "", q.data$string))
[1] 2 1 0

请注意，在传递给 nchar 之前，我将因子变量强制转换为字符。正则表达式函数似乎在内部执行此操作。

这是基准测试结果（测试规模扩大到 3000 行）

 q.data<-q.data[rep(1:NROW(q.data), 1000),]
 str(q.data)
'data.frame':   3000 obs. of  3 variables:
 $ number     : int  1 2 3 1 2 3 1 2 3 1 ...
 $ string     : Factor w/ 3 levels "greatgreat","magic",..: 1 2 3 1 2 3 1 2 3 1 ...
 $ number.of.a: int  2 1 0 2 1 0 2 1 0 2 ...

 benchmark( Dason = { q.data$number.of.a <- str_count(as.character(q.data$string), "a") },
 Tim = {resT <- sapply(as.character(q.data$string), function(x, letter = "a"){
                            sum(unlist(strsplit(x, split = "")) == letter) }) }, 

 DWin = {resW <- nchar(as.character(q.data$string)) -nchar( gsub("a", "", q.data$string))},
 Josh = {x <- sapply(regmatches(q.data$string, gregexpr("g",q.data$string )), length)}, replications=100)
#-----------------------
   test replications elapsed  relative user.self sys.self user.child sys.child
1 Dason          100   4.173  9.959427     2.985    1.204          0         0
3  DWin          100   0.419  1.000000     0.417    0.003          0         0
4  Josh          100  18.635 44.474940    17.883    0.827          0         0
2   Tim          100   3.705  8.842482     3.646    0.072          0         0

score 12 · Accepted Answer

该stringi软件包提供了stri_count非常stri_count_fixed快的功能。

stringi::stri_count(q.data$string, fixed = "a")
# [1] 2 1 0

基准

与@42- 的答案中最快的方法以及包中具有 30.000 个元素的向量的等效函数相比。stringr

library(microbenchmark)

benchmark <- microbenchmark(
  stringi = stringi::stri_count(test.data$string, fixed = "a"),
  baseR = nchar(test.data$string) - nchar(gsub("a", "", test.data$string, fixed = TRUE)),
  stringr = str_count(test.data$string, "a")
)

autoplot(benchmark)

数据

q.data <- data.frame(number=1:3, string=c("greatgreat", "magic", "not"), stringsAsFactors = FALSE)
test.data <- q.data[rep(1:NROW(q.data), 10000),]

score 10 · Accepted Answer

10

另一个不错的选择，使用charToRaw：

sum(charToRaw("abc.d.aa") == charToRaw('.'))

于 2016-07-06T16:17:36.783 回答

score 7 · Accepted Answer

https://stackoverflow.com/a/12430764/589165的变体是

> nchar(gsub("[^a]", "", q.data$string))
[1] 2 1 0

score 2 · Accepted Answer

我相信有人可以做得更好，但这有效：

sapply(as.character(q.data$string), function(x, letter = "a"){
  sum(unlist(strsplit(x, split = "")) == letter)
})
greatgreat      magic        not 
     2          1          0

或在函数中：

countLetter <- function(charvec, letter){
  sapply(charvec, function(x, letter){
    sum(unlist(strsplit(x, split = "")) == letter)
  }, letter = letter)
}
countLetter(as.character(q.data$string),"a")

score 1 · Accepted Answer

你可以只使用字符串除法

require(roperators)
my_strings <- c('apple', banana', 'pear', 'melon')
my_strings %s/% 'a'

这将为您提供 1、3、1、0。您还可以将字符串除法与正则表达式和整个单词一起使用。

score 0 · Accepted Answer

下面的问题已移至此处，但似乎此页面并未直接回答 Farah El 的问题。如何在R中找到101中的数字1

所以，我会在这里写一个答案，以防万一。

library(magrittr)
n %>% # n is a number you'd like to inspect
  as.character() %>%
  str_count(pattern = "1")

https://stackoverflow.com/users/8931457/farah-el

score 0 · Accepted Answer

另一种base R选择可能是：

lengths(lapply(q.data$string, grepRaw, pattern = "a", all = TRUE, fixed = TRUE))

[1] 2 1 0

score 0 · Accepted Answer

恕我直言，最简单和最干净的方法是：

q.data$number.of.a <- lengths(gregexpr('a', q.data$string))

#  number     string number.of.a`
#1      1 greatgreat           2`
#2      2      magic           1`
#3      3        not           0`

score -1 · Accepted Answer

下一个表达式完成了这项工作，也适用于符号，而不仅仅是字母。

该表达式的工作原理如下：

1：它在数据帧 q.data 的列上使用 lapply 来迭代第 2 列的行（“lapply（q.data[,2]”），

2：它适用于第 2 列的每一行一个函数“function(x){sum('a' == strsplit(as.character(x), '')[[1]])}”。该函数获取第 2 列 (x) 的每一行值，转换为字符（例如，如果它是一个因素），并在每个字符上拆分字符串（“strsplit(as.character(x), ' '）”）。因此，对于第 2 列的每一行，我们有一个包含字符串值的每个字符的向量。

3：将向量的每个向量值与要计数的所需字符进行比较，在本例中为“a”（“'a' ==”）。此操作将返回 True 和 False 值“c(True,False,True,....)”的向量，当向量中的值与要计数的所需字符匹配时为 True。

4：字符“a”出现在行中的总次数计算为向量“sum(....)”中所有“真”值的总和。

5：然后应用“unlist”函数解包“lapply”函数的结果并将其分配给数据帧中的新列（“q.data$number.of.a<-unlist(.... ")

q.data$number.of.a<-unlist(lapply(q.data[,2],function(x){sum('a' == strsplit(as.character(x), '')[[1]])}))

>q.data

#  number     string     number.of.a
#1   greatgreat         2
#2      magic           1
#3      not             0

score -2 · Accepted Answer

s <- "aababacababaaathhhhhslsls jsjsjjsaa ghhaalll"
p <- "a"
s2 <- gsub(p,"",s)
numOcc <- nchar(s) - nchar(s2)

可能不是有效的，但可以解决我的目的。

regex - 如何计算给定字符在一列字符串的每一行中出现的次数？

13 回答 13

Related

Reference