在 (F)lex 中执行此操作的最简单方法是为错误创建第二个模式:
[[:alpha:]][[:alnum:]]* return IDENTIFIER;
[+-]?[[:digit:]]+ return INTEGER;
[+-]?[[:digit:]]+[[:alpha:]] {
fprintf(stderr,
"Incorrect integer '%s' in line %d\n",
yytext, yylineno);
return ERROR;
}
第三条规则将匹配任何紧随其后的字母的整数,并发出词汇错误信号。(我假设您已启用%option yylineno
. 如果没有,那将始终在第 0 行报告错误。)
另一种方法可能是继续词法扫描。在这种情况下,您可能需要重新扫描有问题的字母字符。最简单的方法是在 Flex 中使用它的(特殊的)尾随上下文运算符/
:
[[:alpha:]][[:alnum:]]* return IDENTIFIER;
[+-]?[[:digit:]]+ return INTEGER;
[+-]?[[:digit:]]+/[[:alpha:]] {
fprintf(stderr,
"Warning: Incorrect integer '%s' in line %d\n",
yytext, yylineno);
return INTEGER;
}
现在第三条规则将匹配完全相同的内容,但匹配后它将退回到数字的末尾,以便下一个词位以字母字符开头。
您也可以使用yyless()
宏执行此操作:
yyless(n)
将当前标记的第一个字符以外的所有n
字符返回到输入流……
所以你可以使用:
[[:alpha:]][[:alnum:]]* return IDENTIFIER;
[+-]?[[:digit:]]+ return INTEGER;
[+-]?[[:digit:]]+[[:alpha:]] {
fprintf(stderr,
"Warning: Incorrect integer '%s' in line %d\n",
yytext, yylineno);
yyless(yyleng - 1);
return INTEGER;
}
最后,正如@CharlieBurns 在评论中指出的那样,您可以让词法分析器将两个标记(一个数字和一个标识符)返回给解析器,如果该序列在语言中是非法的,它将识别语法错误。在许多编程语言中,没有一个语法程序可以包含一个紧跟一个标识符的整数,中间没有标点符号。
然而,在许多其他语言中,这种组合是完全合理的,特别是在像 Lua 这样没有明确的语句结束指示符的语言中,所以
b = 3 a = 4
是一个由两个赋值语句组成的有效程序。再举一个例子,在 Awk 中,字符串连接不使用运算符表示,如果需要,数字会自动强制转换为字符串,所以
print 3 a
将打印 的连接"3"
和 的值a
。Lua 在上面的例子中坚持使用空格;awk 没有。
而且,最终,C(++) 认为3a
是一个单一的标记,一个“预处理数字”。如果令牌确实通过了预处理器,则会标记错误,但以下程序没有语法错误:
#define NOTHING(x)
NOTHING(3a)
作为一个可能更有趣的例子:
#define CONCAT2(a,b) a##b
#define CONCAT(a,b) CONCAT2(a,b)
static const int the_answer = CONCAT(0x, 2a);
所以没有“一个答案适合所有人”。