4

我不太明白为什么这不会导致"test"并希望得到解释:

a = "blah test"
sub('^.*(test|$)', '\\1', a)
# [1] ""

将其与sed表达式进行比较:

echo 'blah test' | sed -r 's/^.*(test|$)/\1/'
# test
echo 'blah blah' | sed -r 's/^.*(test|$)/\1/'
#

Fwiw,以下实现了我在 R 中想要的(并且等效于上述sed结果):

sub('^.*(test)|^.*', '\\1', a)
4

2 回答 2

5

您需要将其标记^.*为非贪婪

> sub('^.*?(test|$)', '\\1', "blah test")
[1] "test"
> sub('^.*?(test|$)', '\\1', "blah blah")
[1] ""
于 2013-07-18T16:10:00.930 回答
2

开头regex engine匹配所有字符,直到字符串的结尾,即greedy .*,然后它尝试匹配(test|$),即字符串文字 'test' 或字符串的结尾。由于第一次贪婪匹配.*匹配了所有字符,它back-references是一个字符,然后再次尝试匹配(test|$),这里$匹配字符串的末尾。

使您的比赛结果成为end of line character

我认为sed使用POSIX NFA试图在交替中找到最长的匹配,这与R似乎使用传统 NFA不同

于 2013-07-18T16:36:25.560 回答