3

我有以下句子:

     text <MIR-1> GGG-33 <EXP-V-3> text text <VACCVIRUS-PROP-1> some other.
     text <MIR-1> text <ASSC-PHRASE-1> text <VACCVIRUS-PROP-1> some other <PATTERN-1> other.

我想做的是创建一个可以匹配上面两个句子的正则表达式(regex)。请注意,上述句子中唯一不同的模式是中间因素<EXP-V-3><ASSC-PHRASE-1>

我坚持当前的尝试,它在两个冗余的正则表达式中匹配它们。正确的方法是什么?

 use Data::Dumper;

    @sent = ("text <MIR-1> GGG-33 <EXP-V-3> text text <VACCVIRUS-PROP-1> some other.",
             " text <MIR-1> text <ASSC-PHRASE-1> text <VACCVIRUS-PROP-1> some other <PATTERN-1> other.");


    foreach $sent (@sent) {
       if ( $sent =~ /.*<MIR-\d+>.*<EXP-V-\d+>.*<VACCVIRUS-PROP-\d+>.*/gi ) {

          print "$sent\n";
        }
        elsif( $sent =~ /.*<MIR-\d+>.*<ASSC-PHRASE-\d+>.*<VACCVIRUS-PROP-\d+>/gi ) {
         print "$sent\n";
        }
    }

现场演示

4

2 回答 2

5

(?:xxx|yyy)\s*<MIR-1>\s*(?:xxx|yyy)\s*(?:<EXP-V-3>|<ASSC-PHRASE-1>)\s*(?:xxxx|yyy)\s*<VACCVIRUS-PROP-1>

也许这个正则表达式没有优化,但它工作。

好的,我在这里做什么:

第一魔法:

(?:EXPR) - Capture group NOT CAPTURED # <?:> helps to avoid any capturing

第二魔法:

(a|b|c) - choose metasymbol in work. I would choose between <a> or <b> or <c>

第三魔法:

在这里 Rubular 工作

概括:

.+?\s*<MIR-\d+>\s*.+?\s*(?:<EXP-V-\d+>|<ASSC-PHRASE-\d+>)\s*.+?\s*<VACCVIRUS-PROP-\d+>.+

你的例子:

在这里,Rubular 也可以工作

拒绝字符串:

.+?\s*<MIR-\d+>\s*[^\[]+?\s*(?:<EXP-V-\d+>|<ASSC-PHRASE-\d+>)\s*[^\]]+?\s*<VACCVIRUS-PROP-\d+>.+

第四魔法:

[^SYMBOLS] - Class of symbols. <^> At the beginning mean 'I DON'T want match them'.

这里示例:

[abc]{1} - I will match <a> or <b> or <c>
[^abc]{1} - I will NOT match <a> or <b> or <c>

在这里 Rubular 再次工作

于 2013-07-23T07:34:10.437 回答
0

重构你所拥有的

@sent = ("text <MIR-1> GGG-33 <EXP-V-3> text text <VACCVIRUS-PROP-1> some other.",
         " text <MIR-1> text <ASSC-PHRASE-1> text <VACCVIRUS-PROP-1> some other <PATTERN-1> other.");

foreach $sent (@sent) {
   if ( $sent =~ /.*<MIR-\d+>.*<(?:EXP-V|ASSC-PHRASE)-\d+>.*<VACCVIRUS-PROP-\d+>.*/gi ) {
      print "$sent\n";
    }
}

在哪里

.*<MIR-\d+>.*<EXP-V-\d+>.*<VACCVIRUS-PROP-\d+>.*|.*<MIR-\d+>.*<ASSC-PHRASE-\d+>.*<VACCVIRUS-PROP-\d+>.*

变成

.*<MIR-\d+>.*<(?:EXP-V|ASSC-PHRASE)-\d+>.*<VACCVIRUS-PROP-\d+>.*

使用正则表达式重构软件http://regexformat.com

在此处输入图像描述

https://regex101.com/r/TiXXO6/1

于 2021-04-09T16:31:20.303 回答