string - AntLR - 字符串识别错误

Question

我有一个 ANTLR 语法文件，其字符串定义如下

STRING
:  '"' (EscapeSequence | ~('\\'|'"') )* '"' ;
fragment EscapeSequence
  :   '\\' .
;

但是这个 Lexer 规则忽略了引号的第一个实例中的转义字符。这

身份证\=\"

被识别为字符串的开头，而前面有一个转义字符。这仅发生在第一个报价中。所有后续引号，如果转义，都可以正确识别。

/id\= \"Testing\" -- 不应该是字符串，因为两个引号都被转义了
/id\= "Testing" -- 应该是引号之间的字符串，因为它们没有被转义

要解决的主要问题是，如果引号前面的字符（仅最后一个字符）是转义字符，则要避免词法分析器尝试识别字符串。如果有多个转义字符，我只需要在起始引号之前考虑一个字符。

score 0 · Accepted Answer

ANTLR 会在几乎所有情况下自动提供您想要的行为。考虑以下输入：

/id\=\"Testing\"

关键要求涉及第一个引号字符之前的标记的位置和长度。在下面的块中，我添加空格仅用于说明字符之间发生的情况。

/ i d \ = \ " T e s t i n g \ "
           ^
           |
           ----------- Make sure no token can *end* here

通过确保将第一个"字符作为标记的一部分包含\在它之前的字符中，您可以确保第一个"字符永远不会被解释为STRING标记的开头。

如果不满足上述条件，你的"角色将被视为STRING令牌的开始。

1 回答 1