antlr - 添加 (...) {...} 函数字面量，同时避免回溯

Question

基于如何在没有回溯的情况下同时具有函数调用和括号分组中找到的答案，我想添加非 LL(*) 表示的函数文字，如

...

tokens {
 ...
 FN;
 ID_LIST;
}

stmt
 : expr SEMI // SEMI=';'
 ;

callable
 : ...
 | fn
 ;

fn
 : OPAREN opt_id_list CPAREN compound_stmt
   -> ^(FN opt_id_list compound_stmt)
 ;

compound_stmt
 : OBRACE stmt* CBRACE

opt_id_list
 : (ID (COMMA ID)*)? -> ^(ID_LIST ID*)
 ;

我想做的是允许匿名函数文字有一个参数列表（例如()or (a)or (a, b, c)）后跟一个compound_stmt. 所以(a, b, c){...}很好。但(x)(y){}不是那么多。（当然(x) * (y){}就解析器而言是“有效的”，就像((y){})()[1].x会一样。）

score 0 · Accepted Answer

解析器需要一些额外的展望。我想它可以在没有它的情况下完成，但它肯定会导致一些看起来很糟糕的解析器规则，这些规则很难维护，并且解析器会接受(a, 2, 3){...}（一个带有表达式列表而不是 id 列表的函数文字），例如。这将导致您在创建 AST 后进行大量语义检查。

（IMO）解决此问题的最佳方法是在中添加函数文字规则callable并在其前面添加句法谓词，这将告诉解析器在实际匹配之前确保确实存在这样的替代方案。

callable
 : (fn_literal)=> fn_literal
 | OPAREN expr CPAREN -> expr
 | ID
 ;

一个演示：

grammar T;

options {
  output=AST;
}

tokens {
 // literal tokens
 EQ     = '==' ;
 GT     = '>' ;
 LT     = '<' ;
 GTE    = '>=' ;
 LTE    = '<=' ;
 LAND   = '&&' ;
 LOR    = '||' ;
 PLUS   = '+' ;
 MINUS  = '-' ;
 TIMES  = '*' ;
 DIVIDE = '/' ;
 OPAREN = '(' ;
 CPAREN = ')' ;
 OBRACK = '[' ;
 CBRACK = ']' ;
 DOT    = '.' ;
 COMMA  = ',' ;
 OBRACE = '{' ;
 CBRACE = '}' ;
 SEMI   = ';' ;

 // imaginary tokens
 CALL;
 INDEX;
 LOOKUP;
 UNARY_MINUS;
 PARAMS;
 FN;
 ID_LIST;
 STATS;
}

prog
 : expr EOF -> expr
 ;

expr
 : boolExpr
 ;

boolExpr
 : relExpr ((LAND | LOR)^ relExpr)?
 ;

relExpr
 : (a=addExpr -> $a) ( (oa=relOp b=addExpr    -> ^($oa $a $b))
                         ( ob=relOp c=addExpr -> ^(LAND ^($oa $a $b) ^($ob $b $c))
                         )?
                     )?
 ;

addExpr
 : mulExpr ((PLUS | MINUS)^ mulExpr)*
 ;

mulExpr
 : unaryExpr ((TIMES | DIVIDE)^ unaryExpr)*
 ;

unaryExpr
 : MINUS atomExpr -> ^(UNARY_MINUS atomExpr)
 | atomExpr
 ;

atomExpr
 : INT
 | call
 ;

call
 : (callable -> callable) ( OPAREN params CPAREN -> ^(CALL $call params)
                          | OBRACK expr CBRACK   -> ^(INDEX $call expr)
                          | DOT ID               -> ^(INDEX $call ID)
                          )*
 ;

callable
 : (fn_literal)=> fn_literal
 | OPAREN expr CPAREN -> expr
 | ID
 ;

fn_literal
 : OPAREN id_list CPAREN compound_stmt -> ^(FN id_list compound_stmt)
 ;

id_list
 : (ID (COMMA ID)*)? -> ^(ID_LIST ID*)
 ;

params
 : (expr (COMMA expr)*)? -> ^(PARAMS expr*)
 ;

compound_stmt
 : OBRACE stmt* CBRACE -> ^(STATS stmt*)
 ;

stmt
 : expr SEMI
 ;

relOp
 : EQ | GT | LT | GTE | LTE
 ;

ID     : 'a'..'z'+ ;
INT    : '0'..'9'+ ;
SPACE  : (' ' | '\t') {skip();};

由上述语法生成的解析器会(x)(y){}在正确解析以下 3 段代码时拒绝输入：

1

(a, b, c){ a+b*c; }

在此处输入图像描述

2

(x) * (y){ x.y; }

在此处输入图像描述

3

((y){})()[1].x

在此处输入图像描述

antlr - 添加 (...) {...} 函数字面量，同时避免回溯

1 回答 1

1

2

3

Related

Reference