regex - R中的正则表达式“吃掉”字符串的一部分

Question

我想将一个字符串分成两组。该字符串的结构非常简单，但我无法使其工作。

txt <- "text12-01-2016"

它总是一些字母，后跟日期，而日期显然以数字开头。我在https://regex101.com/尝试了以下正则表达式，并有效地正确分隔了字符串：

([a-zA-Z]*)([0-9].*)
1. "text"
2. "12-01-2016"

但是当我在 R 中尝试时它失败了：

strsplit(a[1],split = "([a-zA-Z]*)([0-9]*)")
[[1]]
 [1] ""  " " ""  "." " " ""  " " ""  "-" ""  "-" ""

如果我引入双方括号，那么它会“吃掉”第一组的最后一个字符，以及第二组的第一个字符：

strsplit(txt,split = "([[a-zA-Z]]*)([[0-9]]*)")
[[1]]
[1] "tex"      "2-01-2016"

我是否使用没关系perl=TRUE。如果我使用结果也是一致stringi::stri_split的，所以这是我的正则表达式中的一个问题。

在这种情况下使用的正确正则表达式是什么？

score 5 · Accepted Answer

这里的“问题”是您有一个用于匹配的正则表达式，而不是用于拆分。

您可以使用以下 PCRE 正则表达式strsplit：

strsplit(txt,split = "(?<=[a-zA-Z])(?=[0-9])", perl=T)
[[1]]
[1] "text"       "12-01-2016"

正则表达式将匹配字母和数字之间的位置，strsplit 将拆分结果。如果需要，您可以进一步取消列出它。

如果您想使用您的正则表达式，请使用str_matchfrom stringr：

> library(stringr)
>str_match(txt,  "([a-zA-Z]*)([0-9].*)")
     [,1]             [,2]   [,3]        
[1,] "text12-01-2016" "text" "12-01-2016"

1 回答 1