0

我正在用 JFlex + CUP 编写一个词法分析器 + 解析器,我希望有关于块的类似 Python 的语法;也就是说,缩进标记了块级别。

我不确定如何解决这个问题,以及是否应该在词汇或语法级别完成。

我目前的方法是在词法级别解决问题 - 换行符被解析为指令分隔符,当处理一个时,我将词法分析器移动到一种特殊状态,该状态检查新行前面有多少字符并记住在哪一列最后一行开始,并相应地引入和打开块或关闭块字符。

但是,我遇到了各种各样的麻烦。例如:

  1. JFlex 无法匹配空字符串,因此我的指令需要在每个换行符后至少有一个空格。
  2. 我不能用这种方法同时关闭两个块。

我的方法正确吗?我应该做不同的事情吗?

4

1 回答 1

1

您在词法分析器而不是解析器中处理缩进的方法是正确的。好吧,这两种方法都是可行的,但这通常是更简单的方法,而且 Python 本身(或至少 CPython 和 PyPy)就是这样做的。

我对 JFlex 了解不多,您也没有给我们任何代码来使用,但我可以笼统地解释一下。

对于您的第一个问题,您已经在换行符之后将词法分析器置于特殊状态,因此“抓取 0 个或更多空格”应该可以通过逃避正常的事物流程并仅针对该行运行正则表达式来实现。

对于第二个问题,最简单的解决方案(也是 Python 使用的一个)是保留一堆缩进。我将演示一些比 Python 所做的更简单的事情。

第一的:

indents = [0]

在每个换行符之后,抓取 0 个或更多空格作为spaces. 然后:

if len(spaces) == indents[-1]:
    pass
elif len(spaces) > indents[-1]:
    indents.append(len(spaces))
    emit(INDENT_TOKEN)
else:
    while len(spaces) != indents[-1]:
        indents.pop()
        emit(DEDENT_TOKEN)

现在您的解析器只看到INDENT_TOKENand DEDENT_TOKEN,这OPEN_BRACE_TOKENCLOSE_BRACE_TOKEN类似 C 语言的 and 没有什么不同。

你想要更好的错误处理——引发某种标记器错误而不是隐含的IndexError,也许使用<而不是!=这样你就可以检测到你已经走得太远而不是耗尽堆栈(如果你想继续更好的错误恢复发出进一步的错误,而不是在第一个错误时放弃)等。

对于现实生活中的示例代码(带有错误处理、制表符和空格、反斜杠换行符以及处理括号表达式内的非语法缩进等),请参阅标准库中的tokenize文档和源代码。

于 2018-05-01T17:30:39.937 回答