scala - 递归 bnf 的 Scala Parser Combinators 技巧？

Question

我试图匹配这个语法：

pgm ::= exprs
exprs ::= expr [; exprs]
expr ::= ID | expr . [0-9]+

我的 scala packrat 解析器组合器如下所示：

import scala.util.parsing.combinator.PackratParsers
import scala.util.parsing.combinator.syntactical._

object Dotter extends StandardTokenParsers with PackratParsers {
    lexical.delimiters ++= List(".",";")
    def pgm = repsep(expr,";")
    def expr :Parser[Any]= ident | expr~"."~num
    def num = numericLit

       def parse(input: String) =
    phrase(pgm)(new PackratReader(new lexical.Scanner(input))) match {
      case Success(result, _) => println("Success!"); Some(result)
      case n @ _ => println(n);println("bla"); None
    }  

    def main(args: Array[String]) {
      val prg = "x.1.2.3;" +
            "y.4.1.1;" +
            "z;" +
            "n.1.10.30"


            parse(prg);
    }
}

但这不起作用。要么它“匹配贪婪”并告诉我：

[1.2] failure: end of input expected 
x.1.2.3;y.4.1.1;z;n.1.10.30

或者如果我将其更改|为 a|||我会得到一个 stackoverflow：

Exception in thread "main" java.lang.StackOverflowError
at java.lang.Character.isLetter(Unknown Source)
at java.lang.Character.isLetter(Unknown Source)
at scala.util.parsing.combinator.lexical.Lexical$$anonfun$letter$1.apply(Lexical.scala:32)
at scala.util.parsing.combinator.lexical.Lexical$$anonfun$letter$1.apply(Lexical.scala:32)
...

我有点理解为什么会出现错误；我能做些什么来解析像上面这样的语法？对我来说似乎并不深奥

编辑：基于http://scala-programming-language.1934581.n4.nabble.com/Packrat-parser-guidance-td1956908.html中引用的论文，我发现我的程序实际上并没有使用新的 packrat 解析器。

IE。更改Parser[Any]为PackratParser[Any]并使用lazy val而不是def

我将上面的内容重写为：

import scala.util.parsing.combinator.PackratParsers
import scala.util.parsing.combinator.syntactical._

object Dotter extends StandardTokenParsers with PackratParsers {
    lexical.delimiters ++= List(".",";")
    lazy val pgm : PackratParser[Any] = repsep(expr,";")
    lazy val expr :PackratParser[Any]= expr~"."~num | ident
    lazy val num = numericLit

    def parse(input: String) =
    phrase(pgm)(new PackratReader(new lexical.Scanner(input))) match {
      case Success(result, _) => println("Success!"); Some(result)
      case n @ _ => println(n);println("bla"); None
    }  

    def main(args: Array[String]) {
      val prg = "x.1.2.3 ;" +
            "y.4.1.1;" +
            "z;" +
            "n.1.10.30"


            parse(prg);
    }
}

score 10 · Accepted Answer

问题是（至少部分地）您实际上并没有使用 Packrat 解析器。请参阅 Scala 的PackratParsers特征的文档，其中说

使用 PackratParsers 与使用 Parsers 非常相似：

任何扩展 Parsers（直接或通过子类）的类/特征都可以混入 PackratParsers。示例：对象 MyGrammar 使用 PackratParsers 扩展 StandardTokenParsers

先前声明为没有形式参数的 def 的每个语法产生式都变成了惰性 val，其类型从 Parser[Elem] 更改为 PackratParser[Elem]。因此，例如， def 生产： Parser[Int] = {...} 变成惰性 val 生产： PackratParser[Int] = {...}

重要提示：使用 PackratParsers 不是一个全有或全无的决定。它们可以在单个语法中与常规解析器自由混合。

我对 Scala 2.8 的解析器组合器知之甚少，无法完全解决这个问题，但通过以下修改，我能够让它解析到分号，这是对你所完成的工作的改进。

object Dotter extends StandardTokenParsers with PackratParsers {
    lexical.delimiters ++= List(".",";")
    lazy val pgm:PackratParser[Any] = repsep(expr,";")
    lazy val expr:PackratParser[Any]= ident ||| (expr~"."~numericLit)

    def parse(input: String) = phrase(expr)(lex(input)) match {
      case Success(result, _) => println("Success!"); Some(result)
      case n @ _ => println(n);println("bla"); None
    }  

    def lex(input:String) = new PackratReader(new lexical.Scanner(input))
}

score 1 · Accepted Answer

生产

expr ::= ID | expr . [0-9]+

是左递归的。它扩展到

expr ::= ID
expr ::= expr . [0-9]+

其中左递归发生在第二行。这就是导致解析器溢出堆栈的原因。

你应该重写你的语法，避免左递归产生式。

expr ::= ID {. [0-9]+}

scala - 递归 bnf 的 Scala Parser Combinators 技巧？

2 回答 2

Related

Reference