antlr - Antlr 词法分析器语义谓词替代

Question

给定语法：

grammar Test;
words: (WORD|SPACE|DOT)+;
WORD : (
       LD
       |DOT       {_input.LA(1)!='.'}?
       ) +        ;
DOT: '.';
SPACE: ' ';
fragment LD: ~[.\n\r ];

使用 Antlr4 生成 Lexer，用于输入：

test. test.test test..test

令牌序列如下：

[@0,0:4='test.',<1>,1:0]
[@1,5:5=' ',<3>,1:5]
[@2,6:14='test.test',<1>,1:6]
[@3,15:15=' ',<3>,1:15]
[@4,16:19='test',<1>,1:16]
[@5,20:20='.',<2>,1:20]
[@6,21:25='.test',<1>,1:21]
[@7,26:25='<EOF>',<-1>,1:26]

令人困惑的是为什么最后一段文本test..test被标记为test .and .test，而我应该看到test. .test

更让我困惑的是输入：

test..test test. test.test

令牌序列是：

[@0,0:3='test',<1>,1:0]
[@1,4:4='.',<2>,1:4]
[@2,5:9='.test',<1>,1:5]
[@3,10:10=' ',<3>,1:10]
[@4,11:14='test',<1>,1:11]
[@5,15:15='.',<1>,1:15]
[@6,16:16=' ',<3>,1:16]
[@7,17:20='test',<1>,1:17]
[@8,21:25='.test',<1>,1:21]
[@9,26:25='<EOF>',<-1>,1:26]

在这里，test.test它被分成两个标记，而在上面它是一个。_input.LA(1) 的调用是否有一些副作用导致这种情况？有人可以解释一下吗？

我正在使用 Antlr4。

score 1 · Accepted Answer

快速修复是检查前一个LA(-1)标记是否不相等.并添加一个前导可选DOT。

结果语法是：

grammar Test;
words: (WORD|SPACE|DOT)+;
WORD : DOT? (
       LD
       |{_input.LA(-1)!='.'}? DOT       
       ) +        ;
DOT: '.';
SPACE: ' ';
fragment LD: ~[.\n\r ];

玩得开心，享受 ANTLR，它是一个不错的工具。

antlr - Antlr 词法分析器语义谓词替代

1 回答 1

Related

Reference