2

基本上我要做的是在 ANTLR 4.1 中为国际化资源标识符创建语法。到目前为止,我遇到的最困难的时间是试图让 ipv6address 的生产规则正常工作。RFC 3987中定义 ipv6address 的方式是,仅针对该生产规则,ABNF 格式基本上就有 9 种不同的替代方案:

IPv6address    =                            6( h16 ":" ) ls32
              /                       "::" 5( h16 ":" ) ls32
              / [               h16 ] "::" 4( h16 ":" ) ls32
              / [ *1( h16 ":" ) h16 ] "::" 3( h16 ":" ) ls32
              / [ *2( h16 ":" ) h16 ] "::" 2( h16 ":" ) ls32
              / [ *3( h16 ":" ) h16 ] "::"    h16 ":"   ls32
              / [ *4( h16 ":" ) h16 ] "::"              ls32
              / [ *5( h16 ":" ) h16 ] "::"              h16
              / [ *6( h16 ":" ) h16 ] "::" 

在这里,ls32 和 h16 都是定义为的子规则:

ls32           = ( h16 ":" h16 ) / IPv4address

因此对于 h16:

h16            = 1*4HEXDIG

其中 HEXDIG 是有效十六进制数字的词法分析器规则。我尝试使用 ANTLR 语法编写此 ABNF 语法,如下所示:

grammar IRI;                                    


iri     : scheme ':' ihier_part ('?' iquery)? ('#' ifragment)? ;

ihier_part  : ('//' iauthority ipath_abempty
    | ipath_absolute
    | ipath_rootless)?
    ;

iri_reference   : iri                               
    | irelative_ref                         
    ;

absolute_IRI    : scheme ':' ihier_part ('?' iquery)? ;

irelative_ref   : irelative_part ('?' iquery)? ('#' ifragment)? ;

irelative_part  : ('//' iauthority ipath_abempty
    | ipath_absolute
    | ipath_noscheme)?
    ;

iauthority      : (iuserinfo '@')? ihost (':' port)? ;

iuserinfo       : (iunreserved | pct_encoded | sub_delims | ':')* ;

ihost           : ip_literal
    | ipv4address
    | ireg_name
    ;

ireg_name       : (iunreserved | pct_encoded | sub_delims)* ;

ipath   : (ipath_abempty                        
    | ipath_absolute                        
    | ipath_noscheme                        
    | ipath_rootless)?                      
    ;

ipath_abempty   : ('/' isegment)* ;

ipath_absolute  : '/' (isegment_nz ('/' isegment)*)? ;

ipath_noscheme  : isegment_nz_nc ('/' isegment)* ;

ipath_rootless  : isegment_nz ('/' isegment)* ;


isegment    : (ipchar)* ;

isegment_nz : (ipchar)+ ;

isegment_nz_nc  : (iunreserved | pct_encoded | sub_delims | '@')+ ;     

ipchar      : iunreserved
    | pct_encoded
    | sub_delims
    | ':'
    | '@'
    ;

iquery      : (ipchar | IPRIVATE | '/' | '?')* ;

ifragment   : (ipchar | '/' | '?')* ;

iunreserved : ALPHA
    | DIGIT
    | '-'
    | '.'
    | '_'
    | '~'
    | UCSCHAR
    ;

fragment
UCSCHAR     : '\u00A0'..'\uD7FF'   | '\uF900'..'\uFDCF'   | '\uFDF0'..'\uFFEF'  
    | '\u40000'..'\u4FFFD' | '\u50000'..'\u5FFFD' | '\u60000'..'\u6FFFD'
    | '\u70000'..'\u7FFFD' | '\u80000'..'\u8FFFD' | '\u90000'..'\u9FFFD'    
    | '\uA0000'..'\uAFFFD' | '\uB0000'..'\uBFFFD' | '\uC0000'..'\uCFFFD'
    | '\uD0000'..'\uDFFFD' | '\uE1000'..'\uEFFFD'
    ;

fragment
IPRIVATE    : '\uE000'..'\uF8FF' | '\uF0000'..'\uFFFFD' | '\u100000'..'\u10FFFD' ;

scheme      : ALPHA (ALPHA | DIGIT | '+' | '-' | '.')* ;

port        : (DIGIT)* ;

ip_literal  : '[' (ipv6address | ipvFuture) ']' ;

ipvFuture   : 'v' (HEXDIG)+ '.' (unreserved | sub_delims | ':')+ ;

ipv6address
locals [int i1, i2, i3, i4, i5, i6, i7, i8, i9, i10 = 0;]               
    : ( {$i1<=6}? h16 ':' {$i1++;} )* ls32                  
    | '::' ( {$i2<=5}? h16 ':' {$i2++;} )* ls32
    | (h16)? '::' ( {$i3<=4}? h16 ':' {$i3++;} )* ls32
    | ((h16 ':')? h16)? '::' ( {$i4<=3}? h16 ':'{$i4++;} )* ls32
    | (( {$i5>=0 && $i5<=2}? h16 ':' {$i5++;} )* h16)? '::' ( {$i6<=2}? h16 ':' {$i6++;} )* ls32
    | (( {$i7>=0 && $i7<=3}? h16 ':' {$i7++;} )* h16)? '::' h16 ':' ls32
    | (( {$i8>=0 && $i8<=4}? h16 ':' {$i8++;} )* h16)? '::' ls32
    | (( {$i9>=0 && $i9<=5}? h16 ':' {$i9++;} )* h16)? '::' h16
    | (( {$i10>=0 && $i10<=6}? h16 ':' {$i10++;} )* h16)* '::'
    ;

h16
locals [int i = 1;]
    : ( {$i>=1 && $i<=4}? HEXDIG {$i++;} )* ;       

ls32        : h16 ':' h16 ;

ipv4address : DEC_OCTET '.' DEC_OCTET '.' DEC_OCTET '.' DEC_OCTET ;

DEC_OCTET   : '0'..'9'                      
    | '10'..'99'
    | '100'..'199'
    | '200'..'249'
    | '250'..'255'
    ;

pct_encoded : '%' HEXDIG HEXDIG ;

unreserved  : ALPHA | DIGIT | '-' | '.' | '_' | '~' ;

reserved    : gen_delims
    | sub_delims
    ;

gen_delims  : ':' | '/' | '?' | '#' | '[' | ']' | '@' ;         

sub_delims  : '!' | '$' | '&' | '\'' | '(' | ')' ;              



DIGIT  : [0-9] ;                                
HEXDIG : [0-9A-F] ;
ALPHA  : [a-zA-Z] ;
WS     : [' ' | '\t' | '\r' | '\n']+ -> skip ;

在我的 ANTLR 语法中,我尝试使用语义谓词来指定 ABNF 语法中定义的多重性规则,包括 ipv6address 和 h16。当我执行 org.antlr.v4.Tool 类时,我得到以下输出:

warning(125): IRI.g4:68:20: implicit definition of token 'IPRIVATE' in parser
warning(125): IRI.g4:78:4: implicit definition of token 'UCSCHAR' in parser
error(153): IRI.g4:100:0: rule 'ipv6address' contains a closure with at least one alternative that can match an empty string
warning(154): IRI.g4:40:0: rule 'ipath' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string
warning(154): IRI.g4:100:0: rule 'ipv6address' contains an optional block with at least one alternative that can match an empty string

显然我也想摆脱警告,但我需要摆脱错误,指出“ipv6address”包含一个闭包,其中至少有一个可以匹配空字符串的替代方案。我在 StackOverflow 上看到过关于多个替代错误的类似帖子。但是,它们都没有处理可以匹配空字符串的闭包。我也很确定我将不得不将 UCSCHAR 过去 \uFFFF 中的 Unicode 字符定义为代理对,但稍后我会处理。现在只需要知道如何摆脱关闭问题。

4

2 回答 2

1

有很多事情会出错:


0

280Z28 所说的。


1

'250'..'255'不匹配字符串"250"... "255":您需要匹配原始 ABNF 规范中描述的数字范围:

ABNF

dec-octet      = DIGIT                 ; 0-9
               / %x31-39 DIGIT         ; 10-99
               / "1" 2DIGIT            ; 100-199
               / "2" %x30-34 DIGIT     ; 200-249
               / "25" %x30-35          ; 250-255

ANTLR

dec_octet
 : digit
 | non_zero_digit digit
 | D1 digit digit
 | ...
 ;

2

你有很多相互冲突的词法分析器规则。以这些为例:

HEXDIG : [0-9A-F] ;
ALPHA  : [a-zA-Z] ;

因为HEXDIG是之前定义ALPHA的,例如,词法分析器总是会HEXDIG在看到 时创建 a 'A'。您必须意识到词法分析器不会根据解析器想要接收的内容生成标记。词法分析器会走自己的路,永远不会ALPHA为大写字母生成一个A-F


3

fragment规则只能在其他词法分析器规则(或其他fragment规则)中使用。您不能在解析器规则中使用它们。


4

不是真正的问题,但谓词使您的语法难以阅读:如果可能,尽量减少谓词是我的经验法则。

你的规则:

h16
locals [int i = 1;]
    : ( {$i>=1 && $i<=4}? HEXDIG {$i++;} )* ;

可以写成:

h16
 : HEXDIG HEXDIG HEXDIG HEXDIG
 | HEXDIG HEXDIG HEXDIG
 | HEXDIG HEXDIG
 | HEXDIG
 ;

甚至:

h16
 : HEXDIG (HEXDIG (HEXDIG HEXDIG?)?)?
 ;


大多数这些问题都很容易解决,但 #2 是一个更棘手的问题。您可以(应该?)做的是让词法分析器创建单字符标记并让解析器将这些单字符标记匹配成一个整体。一个如何让解析器匹配dec-octet官方 ABNF 产生的示例:

dec_octet
 : digit                               // 0-9
 | non_zero_digit digit                // 10-99
 | D1 digit digit                      // 100-199
 | D2 (D0 | D1 | D2 | D3 | D4) digit   // 200-249
 | D2 D5 (D0 | D1 | D2 | D3 | D4 | D5) // 250-255
 ;

digit
 : D0
 | non_zero_digit
 ;

non_zero_digit
 : D1 | D2 | D3 | D4 | D5 | D6 | D7 | D8 | D9
 ;

// lexer rules
D0 : '0';
D1 : '1';
D2 : '2';
D3 : '3';
D4 : '4';
D5 : '5';
D6 : '6';
D7 : '7';
D8 : '8';
D9 : '9';

我曾经为 ANTLR 3 写过 IRI 语法。如果你愿意,我可以把它放在 Github 的某个地方。

于 2014-01-29T22:04:28.423 回答
1

您的h16规则使用(...)*而不是(...)+,这允许它匹配 0 位数字。当您放入h16*语法时,这意味着您在解析树中允许任意数量的空,这总是会导致系统内存不足的无限循环(创建没有标记的解析树节点)。

于 2014-01-29T19:03:55.697 回答