10

我在文件中有一个模式,如下所示,它可以/不能跨越多行:

 abcd25
 ef_gh
 ( fg*_h
 hj_b*
 hj ) {

我尝试过的:

perl -nle '打印而 m/^\s*(\w+)\s+(\w+?)\s*(([\w-0-9,* \s] ))\s {/gm'

我不知道标志在这里的含义,但我所做的只是regex为模式编写一个并将其插入到模式空间中。如果模式在一行中,这匹配得很好:

abcd25 ef_gh ( fg*_h hj_b* hj ) {

但仅在多行情况下失败!

我昨天开始使用 perl,但语法太混乱了。因此,正如我们的一位同事所建议的那样,我写了一个regex并将其插入到他提供的代码中。

我希望perl和尚能在这种情况下帮助我。欢迎替代解决方案。

输入文件 :

 abcd25
 ef_gh
 ( fg*_h
 hj_b*
 hj ) {

 abcd25
 ef_gh
 fg*_h
 hj_b*
 hj ) {

 jhijdsiokdù ()lmolmlxjk;
 abcd25 ef_gh ( fg*_h hj_b* hj ) {

预期输出:

 abcd25
 ef_gh
 ( fg*_h
 hj_b*
 hj ) {
 abcd25 ef_gh ( fg*_h hj_b* hj ) {

输入文件可以有多个模式,这些模式与所需模式的开始和结束模式一致。提前感谢您的回复。

4

2 回答 2

9

正则表达式甚至不匹配单行。你认为双括号有什么作用?

你可能想要

m/^\s*(\w+)\s+(\w+?)\s*\([\w0-9,*\s]+\)\s{/gm

更新:规范已更改。正则表达式(几乎)没有,但您必须稍微更改代码:

perl -0777 -nle 'print "$1\n" while m/^\s*(\w+\s+\w+?\s*\([\w0-9,*\s]+\)\s{)/gm'

另一个更新:

解释:

  • 开关描述perlrun如下:zero , n , l , e
  • 正则表达式可以由YAPE::Regex::Explain自动解释

    perl -MYAPE::Regex::Explain -e 'print YAPE::Regex::Explain->new(qr/^\s*(\w+\s+\w+?\s*\([\w0-9,*\s]+\)\s{)/)->explain'
    The regular expression:
    
    (?-imsx:^\s*(\w+\s+\w+?\s*\([\w0-9,*\s]+\)\s{))
    
    matches as follows:
    
    NODE                     EXPLANATION
    ----------------------------------------------------------------------
    (?-imsx:                 group, but do not capture (case-sensitive)
                             (with ^ and $ matching normally) (with . not
                             matching \n) (matching whitespace and #
                             normally):
    ----------------------------------------------------------------------
      ^                        the beginning of the string
    ----------------------------------------------------------------------
      \s*                      whitespace (\n, \r, \t, \f, and " ") (0 or
                               more times (matching the most amount
                               possible))
    ----------------------------------------------------------------------
      (                        group and capture to \1:
    ----------------------------------------------------------------------
        \w+                      word characters (a-z, A-Z, 0-9, _) (1 or
                                 more times (matching the most amount
                                 possible))
    ----------------------------------------------------------------------
        \s+                      whitespace (\n, \r, \t, \f, and " ") (1
                                 or more times (matching the most amount
                                 possible))
    ----------------------------------------------------------------------
        \w+?                     word characters (a-z, A-Z, 0-9, _) (1 or
                                 more times (matching the least amount
                                 possible))
    ----------------------------------------------------------------------
        \s*                      whitespace (\n, \r, \t, \f, and " ") (0
                                 or more times (matching the most amount
                                 possible))
    ----------------------------------------------------------------------
        \(                       '('
    ----------------------------------------------------------------------
        [\w0-9,*\s]+             any character of: word characters (a-z,
                                 A-Z, 0-9, _), '0' to '9', ',', '*',
                                 whitespace (\n, \r, \t, \f, and " ") (1
                                 or more times (matching the most amount
                                 possible))
    ----------------------------------------------------------------------
        \)                       ')'
    ----------------------------------------------------------------------
        \s                       whitespace (\n, \r, \t, \f, and " ")
    ----------------------------------------------------------------------
        {                        '{'
    ----------------------------------------------------------------------
      )                        end of \1
    ----------------------------------------------------------------------
    )                        end of grouping
    ----------------------------------------------------------------------
    
于 2012-08-03T09:54:14.620 回答
9

将触发器运算符用于单线

Perl 使用触发器运算符使这变得非常容易,它允许您打印出两个正则表达式之间的所有行。例如:

$ perl -ne 'print if /^abcd25/ ... /\bhj \) {/' /tmp/foo
abcd25
ef_gh
( fg*_h
hj_b*
hj ) {

但是,像这样的简单单行不会区分您想要拒绝分隔模式之间的特定匹配的匹配。这需要更复杂的方法。

更复杂的比较受益于条件分支

单行并不总是最好的选择,如果正则表达式变得过于复杂,它们会很快失控。在这种情况下,您最好编写一个可以使用条件分支的实际程序,而不是尝试使用过于聪明的正则表达式匹配。

一种方法是使用简单模式建立匹配,然后拒绝任何与其他简单模式不匹配的匹配。例如:

#!/usr/bin/perl -nw

# Use flip-flop operator to select matches.
if (/^abcd25/ ... /\bhj \) {/) {
    push @string, $_
};

# Reject multi-line patterns that don't include a particular expression
# between flip-flop delimiters. For example, "( fg" will match, while
# "^fg" won't.
if (/\bhj \) {/) {
    $string = join("", @string);
    undef @string;
    push(@matches, $string) if $string =~ /\( fg/;
};

END {print @matches}

当针对 OP 更新的语料库运行时,这会正确产生:

abcd25
ef_gh
( fg*_h
hj_b*
hj ) {
abcd25 ef_gh ( fg*_h hj_b* hj ) {
于 2012-08-03T10:06:48.747 回答