14

我一直在尝试为我一直在设计的一种语言制定基本框架,并且我正在尝试使用Parsimonious为我进行解析。截至目前,我已经声明了以下语法:

grammar = Grammar(
    """
    program = expr*
    expr    = _ "{" lvalue (rvalue / expr)* "}" _
    lvalue  = _ ~"[a-z0-9\\-]+" _
    rvalue  = _ ~".+" _
    _       = ~"[\\n\\s]*"
    """
)

当我尝试输出一个简单输入字符串的结果 AST 时,例如"{ do-something some-argument }"

print(grammar.parse("{ do-something some-argument }"))

Parsimonious 决定彻底拒绝它,然后给了我这个有点神秘的错误:

Traceback (most recent call last):
  File "tests.py", line 13, in <module>
    print(grammar.parse("{ do-something some-argument }"))
  File "/usr/local/lib/python2.7/dist-packages/parsimonious/grammar.py", line 112, in parse
    return self.default_rule.parse(text, pos=pos)
  File "/usr/local/lib/python2.7/dist-packages/parsimonious/expressions.py", line 109, in parse
    raise IncompleteParseError(text, node.end, self)
parsimonious.exceptions.IncompleteParseError: Rule 'program' matched in its entirety, but it didn't consume all the text. The non-matching portion of the text begins with '{ do-something some-' (line 1, column 1).

起初我认为这可能是与我的空格规则有关的问题_,但是在尝试在某些地方删除空格规则失败后,我仍然遇到了同样的错误。

我尝试过在线搜索,但我发现似乎与远程相关的只是这个问题,它对我没有任何帮助。

我的语法有问题吗?我没有以正确的方式解析输入吗?如果有人对此有可能的解决方案,将不胜感激。

4

1 回答 1

6

我与 Parsimonious 专家相去甚远,但我认为问题在于~".+"贪婪地匹配输入字符串的整个剩余部分,而没有任何东西可以匹配生产的其余部分。rvalue我最初通过将正则表达式更改为to 来测试这个想法~"[a-z0-9\\-]+",与您所拥有的相同lvalue。现在它解析,并且(非常好)通过上下文区分两个相同定义的标记lvaluervalue.

from parsimonious.grammar import Grammar

grammar = Grammar(
    """
    program = expr*
    expr    = _ "{" lvalue (rvalue / expr)* "}" _
    lvalue  = _ ~"[a-z0-9\\-]+" _
    rvalue  = _ ~"[a-z0-9\\-]+" _
    _       = ~"[\\n\\s]*"
    """
)

print(grammar.parse( "{ do-something some-argument }"))

如果你的意思是rvalue匹配任何非空白字符序列,你需要更多这样的东西:

rvalue = _ ~"[^\\s\\n]+" _

但是哎呀!

{ foo bar }

"}"是一个右花括号,但它也是一个或多个非空白字符的序列。是"}"还是rvalue?语法说下一个标记可以是其中任何一个。其中一种解释是可解析的,而另一种则不是,但 Parsimonious 只是说它是菠菜和它的地狱。我不知道解析专家是否会认为这是解决歧义的合法方法(例如,这种语法可能会导致两种可能的解释解析的情况),或者实现它的实用性。在任何情况下,Parsimonious 都不会打这个电话。

所以我们需要在花括号问题上击退寄宿生。我认为这种语法可以满足您的要求:

from parsimonious.grammar import Grammar

grammar = Grammar(
    """
    program = expr*
    expr    = _ "{" lvalue (expr / rvalue)* "}" _
    lvalue  = _ ~"[a-z0-9\\-]+" _
    rvalue  = _ ~"[^{}\\n\\s]+" _
    _       = ~"[\\n\\s]*"
    """
)

print(grammar.match( "{ do-something some-argument 23423 {foo bar} &^%$ }"))

我也排除了大括号,因为您希望这个字符串如何标记?

{foo bar{baz poo}}

我希望

"{" "foo" "bar" "{" "baz" "poo" "}" "}"

...因为 if"poo}"预计将标记为"poo" "}",并且"{foo"预计将标记为"{" "foo",然后将bar{baz其视为"bar{baz"or"bar{" "baz"违反直觉的。

现在我记得我对 yacc 的强烈仇恨是如何让我对它着迷的。

于 2015-10-29T20:01:53.980 回答