javascript - 如何在吉森中获得代币？

Question

我在大学项目中使用 Jison，我需要switch为每个公认的令牌制作一个，所以我可以向教授展示如下内容：

<identifier, s>
<operator, =>
<identifier, a>
<operator, +>
<identifier, b>

有什么方法可以在不手动重复正则表达式的情况下完成这项工作？（我的意思是，Jison 在内部使用正则表达式，但这不关我的事）

我尝试做的是以下内容：

var lex = parser.lexer,
    token;
lex.setInput('The code to parse');
while (!lex.done) {
    token = lex.next();
}

但我唯一得救的东西token是一个数字，当语法中没有定义符号时，它会逐个字符地返回标记。

提前致谢。

score 1 · Accepted Answer

（警告：部分答案是通过检查 jison 生成的代码得出的。由于接口定义不明确，可能经不起时间的考验。）

parser.lexer.next()不是记录在案的词法分析器接口的一部分，尽管 jison 生成的词法分析器似乎确实实现了它。请注意，如果所使用的输入对应于不产生令牌的词法规则，则它不会产生令牌。（例如，忽略空格的规则。）最好使用记录在案的 interface parser.lexer.lex()，它总是会产生一个标记。

严格来说，parser.lexer.lex()记录为返回终端的名称，但为了提高效率，jison 生成的词法分析器将返回终端的内部数字代码，如果jison能够确定词法规则将返回哪个终端。因此，如果您想跟踪识别的终端的实际名称，您有几个选择：

您可以通过避免使用 form 来破坏这种优化return <string>。例如，如果您更改词法规则：
```
[A-Za-z][A-Za-z0-9]    { return 'IDENTIFIER`; }
```
至
```
[A-Za-z][A-Za-z0-9]    { return '' + 'IDENTIFIER`; }
```
然后生成的词法分析器将返回字符串'IDENTIFIER'而不是一些数字代码。
或者，您可以使用parser.terminals_（根据生成的解析器顶部的注释具有格式terminals_: {associative list: number ==> name}）来查找给定令牌编号的终端名称。

要获取与词位关联的源字符串，请使用parser.lexer.yytext.

这是使用第二种选择的解决方案：

/* To reduce confusion, I change 'lex' to 'lexer' */
var lexer = parser.lexer,
    token;
lexer.setInput('The code to parse');
while (!lexer.done) {
    token = lexer.lex();
    /* Look up the token name if necessary */
    if (token in parser.terminals_) {
       token = parser.terminals_[token];
    }
    console.log('<' + token + ', ' + lexer.yytext + '>')
}

javascript - 如何在吉森中获得代币？

1 回答 1

Related

Reference