scala - Scala Parser Combinators：高效解析 C 风格的注释

Question

/* ... */使用 Scala 解析器组合器（有效地）解析 C 风格的多行注释（即）的最佳方法是什么？

在我参与的一个项目中，我们解析了一种类似 C 的编程语言，并希望支持多行注释。我们使用的子类StandardTokenParsers，它已经处理了此类注释（通过StdLexical。但是，该类仅适用于相当短的多行注释，否则会耗尽堆栈空间。

我们还尝试提供我们自己的空白定义以提高效率。我们使用了一个RegexParser（灵感来自StackOverflow 上的另一个问题），如下所示：

class Parser extends StandardTokenParsers {

  override val lexical = new StdLexical {
    def rp: RegexParsers = new RegexParsers {}
    override val whitespace: Parser[Any] = rp.regex("""(\s|//.*|(?m)/\*(\*(?!/)|[^*])*\*/)*""".r).asInstanceOf[Parser[Any]]
  }

  // ...

}

这稍微改善了这种情况，但如果注释超过几十行，仍然会导致堆栈溢出。任何想法如何改善这一点？

score 7 · Accepted Answer

通过使用解析器而不是使用正则表达式定义空格跳过，我们在此类问题上取得了一些成功。请参阅我们的 Kiama ParserUtilities.scala中的 WhitespaceParser 特征以获取一些支持代码。

大部分的麻烦是覆盖正常的正则表达式空白处理并将新解析器绑定到文字和正则表达式组合器（我们通常不使用标记解析器）。请参阅我们的示例之一以了解用法，在本例中用于处理嵌套注释。

scala - Scala Parser Combinators：高效解析 C 风格的注释

1 回答 1

Related

Reference