c# - ANTLR：我可以在一个上下文中使用“，”作为一个标记，而在所述上下文之外使用另一个标记吗？

Question

具体来说，我正在尝试在 ANTLR 中实现 RegExp 解析器。

以下是我语法的相关部分：

grammar JavaScriptRegExp;
options {
    language = 'CSharp3';
}

tokens {
    /* snip */
    QUESTION = '?';
    STAR = '*';
    PLUS = '+';
    L_CURLY = '{';
    R_CURLY = '}';
    COMMA = ',';
}

/* snip */

quantifier returns [Quantifier value]
    :   q=quantifierPrefix QUESTION?
        {
            var quant = $q.value;
            quant.Eager = $QUESTION == null;
            return quant;
        }
    ;

quantifierPrefix returns [Quantifier value]
    :   STAR { return new Quantifier { Min = 0 }; }
    |   PLUS { return new Quantifier { Min = 1 }; }
    |   QUESTION { return new Quantifier { Min = 0, Max = 1 }; }
    |   L_CURLY min=DEC_DIGITS (COMMA max=DEC_DIGITS?)? R_CURLY
        {
            var minValue = int.Parse($min.Text);
            if ($COMMA == null)
            {
                return new Quantifier { Min = minValue, Max = minValue };
            }
            else if ($max == null)
            {
                return new Quantifier { Min = minValue, Max = null };
            }
            else
            {
                var maxValue = int.Parse($max.Text);
                return new Quantifier { Min = minValue, Max = maxValue };
            }
        }
    ;

DEC_DIGITS
    :   ('0'..'9')+
    ;

/* snip */

CHAR
    :   ~('^' | '$' | '\\' | '.' | '*' | '+' | '?' | '(' | ')' | '[' | ']' | '{' | '}' | '|')
    ;

现在，在花括号的内部，我想将“，”标记为 COMMA，但在外面，我想将它标记为 CHAR。

这可能吗？

这不是发生这种情况的唯一情况。我将遇到许多其他问题（十进制数字、字符类中的连字符等）

编辑：

我知道这被称为上下文相关的词法分析。ANTLR可以做到这一点吗？

score 3 · Accepted Answer

这称为上下文相关的词法分析。ANTLR可以做到这一点吗？

不，解析器不能“告诉”它需要处理的词法分析器，比如说，在解析过程中某个时间不同的数字。仅在词法分析器中可能存在一些上下文敏感的词法分析，但解析器无法影响词法分析器。

但是，它可以通过一些额外的解析器规则轻松解决。例如，当匹配一个字符类 ( [... ]) 时，您使用一个匹配字符类中任何有效内容的解析器规则：

char_class
 : LBRACK char_class_char+ RBRACK
 ;

// ...

char_class_char
 : LBRACK // the '[' is not special inside a character class!
 | LBRACE // the '{' is not special inside a character class!
 | RBRACE // the '}' is not special inside a character class!
 | PLUS   // the '+' is not special inside a character class!
 | STAR   // the '*' is not special inside a character class!
 | QMARK  // the '?' is not special inside a character class!
 | COMMA
 | DIGIT
 | OTHER
 ;

一个小演示：

grammar T;

parse
 : atom* EOF
 ;

atom
 : unit quantifier?
 ;

unit
 : char_class
 | single_char
 ;

quantifier
 : greedy (PLUS | QMARK)?
 ;

greedy
 : PLUS
 | STAR
 | QMARK
 | LBRACE (number (COMMA number?)?) RBRACE
 ;

char_class
 : LBRACK char_class_char+ RBRACK
 ;

number
 : DIGIT+
 ;

single_char
 : DIGIT
 | COMMA
 | RBRACE
 | RBRACK // this is only special inside a character class
 | OTHER
 ;

char_class_char
 : LBRACK
 | LBRACE
 | RBRACE
 | PLUS
 | STAR
 | QMARK
 | COMMA
 | DIGIT
 | OTHER
 ;

LBRACK : '[';
RBRACK : ']';
LBRACE : '{';
RBRACE : '}';
PLUS   : '+';
STAR   : '*';
QMARK  : '?';
COMMA  : ',';
DIGIT  : '0'..'9';
OTHER  : . ;

它将"[+*]{5,20}?A*+"按如下方式解析输入：

在此处输入图像描述

更完整的 PCRE 语法可以在这里找到：https ://github.com/bkiers/PCREParser （语法可以在这里找到）

编辑

那它，我更愿意将“，”标记为花括号内的 COMMA，但将其标记为外部的 CHAR。我现在将使用解决方法，但这可能吗？

不，就像我说的：词法分析器不受解析器的影响。如果你想要这个，你应该选择PEG而不是 ANTLR。使用 ANTLR，词法分析和解析之间只有严格的分离：你对此无能为力。

但是，您可以只更改解析器规则中匹配的令牌类型。每个解析器规则都有一个$start和$end标记，表示它匹配的第一个和最后一个标记。由于char_class_char(and single_char) 将始终匹配单个标记，因此您可以更改@after规则块中标记的类型，如下所示：

single_char
@after{$start.setType(CHAR);}
 : DIGIT
 | COMMA
 | RBRACE
 | RBRACK // this is only special inside a character class
 | OTHER
 ;

char_class_char
@after{$start.setType(CHAR);}
 : LBRACK
 | LBRACE
 | RBRACE
 | PLUS
 | STAR
 | QMARK
 | COMMA
 | DIGIT
 | CHAR
 ;

// ...

CHAR : . ;

导致你追求的行为（我猜）。

高温高压

score 2 · Accepted Answer

可以使用词法分析器中的门控语义谓词来做到这一点。在下面的代码中，仅当 isComma 为 true 时，才会匹配 COMMA 规则。否则它将匹配 CHAR，前提是 CHAR 出现在语法中的 COMMA 之后。我不知道 CSharp，所以我不能给出一个完整的例子。

L_CURLY : '{' {setComma();};
R_CURLY : '}' {clearComma();};
COMMA : {isComma}? => ',';

显然，如果在不同的上下文中使用花括号，这可能不起作用。我建议避免以这种方式使用词法分析器，除非它真的把解析器弄得一团糟。

c# - ANTLR：我可以在一个上下文中使用“，”作为一个标记，而在所述上下文之外使用另一个标记吗？

2 回答 2

编辑

Related

Reference