0

我有一个 ANTLR 语法文件,其字符串定义如下

STRING
:  '"' (EscapeSequence | ~('\\'|'"') )* '"' ;
fragment EscapeSequence
  :   '\\' .
;

但是这个 Lexer 规则忽略了引号的第一个实例中的转义字符。这

身份证\=\"

被识别为字符串的开头,而前面有一个转义字符。这仅发生在第一个报价中。所有后续引号,如果转义,都可以正确识别。

/id\= \"Testing\" -- 不应该是字符串,因为两个引号都被转义了
/id\= "Testing" -- 应该是引号之间的字符串,因为它们没有被转义

要解决的主要问题是,如果引号前面的字符(仅最后一个字符)是转义字符,则要避免词法分析器尝试识别字符串。如果有多个转义字符,我只需要在起始引号之前考虑一个字符。

4

1 回答 1

0

ANTLR 会在几乎所有情况下自动提供您想要的行为。考虑以下输入:

/id\=\"Testing\"

关键要求涉及第一个引号字符之前的标记的位置和长度。在下面的块中,我添加空格仅用于说明字符之间发生的情况。

/ i d \ = \ " T e s t i n g \ "
           ^
           |
           ----------- Make sure no token can *end* here

通过确保将第一个"字符作为标记的一部分包含\在它之前的字符中,您可以确保第一个"字符永远不会被解释为STRING标记的开头。

如果不满足上述条件,你的"角色被视为STRING令牌的开始。

于 2014-07-22T14:10:54.707 回答