1

如何使用/跳过不需要的匹配项?

假设我们有以下文本:

my $t ='good good *bad !bad -bad "alwaysbad alwaysbad alwaysbad" good';

我想要一个只匹配good单词的正则表达式。符号词good,badalwaysbadis 的真正内容当然是[0-9A-Za-z_@]+(\w+这个问题很好)。要从一个单词中分辨出一个bad单词good,像(\s|^)\b\w单词开头的东西就足够了。双引号中的东西总是一个坏词,即使没有前缀。

这就是我所拥有的:

my $r = qr/
           (?: " [^"]+ " )     # skip quoted part altogether, don't capture
            |                  # OR
           (?<!\S) \b ([\w@]+) # find words without 'bad' prefix and capture
          /x;

此表达式不会捕获引用的部分,但仍然匹配。因此,我们将undefined在匹配列表中有一个空条目:

my @matches = $t =~ /$r/g;

print join "\n", @matches;

  good
  good
         <== (uninitialized value, this comes from the quoted part)
  good

现在的问题:

有谁知道适用于当代 perl 正则表达式的技术如何使用字符串的给定部分但不将其与单个正则表达式调用匹配?

因此,结果应该是:

  good
  good
  good


附录

感谢Borodins 的回答,我现在看得更清楚了。只需删除|(或)并应用任何or-zero-times量词,它就会起作用:

my $r = qr/
           (?: " [^"]+ ")? \s?  # skip quotes + space if any
           (?<!\S) \b ([\w@]+)  # find words without 'bad' prefix and capture
          /x;
4

2 回答 2

2

您的正则表达式仅匹配非捕获序列,因为您说过这就是您想要的。

编写任意数量的带引号的字符串的可选前缀,中间插入非引号字符,如下所示

my $r = qr/
  (?: " [^"]* " [^"]*?)*    # skip quoted part altogether, don't capture
  (?<!\S) \b (\w+)          # find words without 'bad' prefix and capture
/x;

但为了清楚起见,我会在尝试匹配之前从目标中删除所有引用的字符串。不要忘记,如果你想@在你的子字符串中也允许,那么你需要[\w@]. 而且您还需要尾随检查以确保开头之后没有无效字符。

$t =~ s/"[^"]*"//g;
my @matches = $t =~ /(?:\s|^)[\w\@]+(?=\s|\z)/g;
于 2012-07-31T12:23:45.460 回答
1

您可以将它们过滤掉:

my @matches = grep { m/\S/ } $t =~ /$r/g;
于 2012-07-31T12:24:49.407 回答