1

我想解析模板字符串:

`Some text ${variable.name} and so on ... ${otherVariable.function(parameter)} ...`

这是我的语法:

varname: VAR ;
variable: varname funParameter? ('.' variable)* ;
templateString: '`' (TemplateStringLiteral* '${' variable '}' TemplateStringLiteral*)+ '`' ;
funParameter: '(' variable? (',' variable)*  ')' ;

WS      : [ \t\r\n\u000C]+ -> skip ;
TemplateStringLiteral: ('\\`' | ~'`') ;
VAR : [$]?[a-zA-Z0-9_]+|[$] ;

解析语法的输入时,由于 WS -> 跳过,模板字符串不再有空格。当我将 TemplateStringLiteral 放在 WS 之前时,出现错误:

需要 {'`'} 的无关输入“”

如何允许仅在模板字符串内解析空格而不是跳过?

4

1 回答 1

2

目前正在发生的事情

在针对显示生成标记的当前语法测试示例时,词法分析器会给出:

[@0,0:0='`',<'`'>,1:0]
[@1,1:4='Some',<VAR>,1:1]
[@2,6:9='text',<VAR>,1:6]
[@3,11:12='${',<'${'>,1:11]
[@4,13:20='variable',<VAR>,1:13]
[@5,21:21='.',<'.'>,1:21]
[@6,22:25='name',<VAR>,1:22]
[@7,26:26='}',<'}'>,1:26]
... shortened ...
[@26,85:84='<EOF>',<EOF>,2:0]

这告诉您,Some您打算成为TemplateStringLiteral*的实际上是 lexed to be VAR。为什么会这样?

正如这个答案中提到的,antlr 使用最长的匹配来创建令牌。由于您的TemplateStringLiteral规则仅匹配单个字符,但您的VAR规则匹配无限多个,因此词法分析器显然使用后者来匹配Some.

你可以尝试什么(剧透:行不通)

您可以尝试像这样修改规则:

TemplateStringLiteral: ('\\`' | ~'`')+ ;

这样它就可以捕获多个字符,因此将是首选。这有两个原因导致它不起作用:

  1. 词法分析器如何将任何内容与VAR规则匹配?

  2. TemplateStringLiteral规则现在也匹配${,因此禁止正确识别模板块的开始。

如何实现你真正想要的

可能有另一种解决方案,但这个可行:

文件 MartinCup.g4:

parser grammar MartinCup;

options { tokenVocab=MartinCupLexer; }

templateString
    : BackTick TemplateStringLiteral* (template TemplateStringLiteral*)+ BackTick
    ;

template
    : TemplateStart variable TemplateEnd
    ;

variable
    : varname funParameter? (Dot variable)*
    ;

varname
    : VAR
    ;

funParameter
    : OpenPar variable? (Comma variable)* ClosedPar
    ;

文件 MartinCupLexer.g4:

lexer grammar MartinCupLexer;

BackTick : '`' ;

TemplateStart
    : '${' -> pushMode(templateMode)
    ;

TemplateStringLiteral
    : '\\`'
    | ~'`'
    ;

mode templateMode;

VAR
    : [$]?[a-zA-Z0-9_]+
    | [$]
    ;

OpenPar : '(' ;
ClosedPar : ')' ;
Comma : ',' ;
Dot : '.' ;

TemplateEnd
    : '}' -> popMode;

该语法使用词法分析器模式来区分花括号的内部和外部。该VAR规则现在仅在${遇到后才处于活动状态,并且仅在}被读取之前保持活动状态。因此,它不会捕获非模板文本,例如Some.

请注意,词法分析器模式的使用需要拆分语法(解析器和词法分析器语法的单独文件)。由于解析器语法中不允许使用词法分析器规则,因此我不得不为括号、逗号、点和反引号引入标记。

关于空格

我假设您想在“普通文本”中保留空格,但不允许在模板中使用空格。因此,我只是删除了WS规则。如果您愿意,您可以随时重新添加它。

我测试了您在TemplateStringLiteral上面放置的替代语法,WS但与您的观察相反,这给了我:

第 1:1 行无关输入 'Some' 期望 {'${', TemplateStringLiteral}

其原因与上述相同,Some适用于VAR.

于 2019-04-18T19:21:02.930 回答