regex - R vs sed 正则表达式贪婪

Question

我不太明白为什么这不会导致"test"并希望得到解释：

a = "blah test"
sub('^.*(test|$)', '\\1', a)
# [1] ""

将其与sed表达式进行比较：

echo 'blah test' | sed -r 's/^.*(test|$)/\1/'
# test
echo 'blah blah' | sed -r 's/^.*(test|$)/\1/'
#

Fwiw，以下实现了我在 R 中想要的（并且等效于上述sed结果）：

sub('^.*(test)|^.*', '\\1', a)

score 5 · Accepted Answer

您需要将其标记^.*为非贪婪

> sub('^.*?(test|$)', '\\1', "blah test")
[1] "test"
> sub('^.*?(test|$)', '\\1', "blah blah")
[1] ""

score 2 · Accepted Answer

开头regex engine匹配所有字符，直到字符串的结尾，即greedy .*，然后它尝试匹配(test|$)，即字符串文字 'test' 或字符串的结尾。由于第一次贪婪匹配.*匹配了所有字符，它back-references是一个字符，然后再次尝试匹配(test|$)，这里$匹配字符串的末尾。

使您的比赛结果成为end of line character

我认为sed使用POSIX NFA试图在交替中找到最长的匹配，这与R似乎使用传统 NFA不同

regex - R vs sed 正则表达式贪婪

2 回答 2

Related

Reference