6

一些编译器书籍/文章/论文讨论了语法的设计及其运算符关联性的关系。我是自上而下的忠实粉丝,尤其是递归下降、解析器和迄今为止我编写的大多数(如果不是全部)编译器都使用以下表达式语法:

Expr   ::= Term { ( "+" | "-" ) Term }
Term   ::= Factor { ( "*" | "/" ) Factor }
Factor ::= INTEGER | "(" Expr ")"

这是此 BNF 的 EBNF 表示:

Expr  ::= Term Expr'
Expr' ::= ( "+" | "-" ) Term Expr' | ε
Term  ::= Factor Term'
Term' ::= ( "*" | "/" ) Factor Term' | ε
Factor = INTEGER | "(" Expr ")"

根据我读到的内容,一些人认为这种语法是“错误的”,因为运算符关联性的变化(这 4 个运算符从左到右)由向右而不是向左生长的解析树证明。对于通过属性语法实现的解析器,这可能是正确的,因为 l 属性值要求首先创建此值,然后将其传递给子节点。但是,当使用正常的递归下降解析器实现时,由我决定是先构造该节点然后传递给子节点(自上而下)还是先创建子节点然后将返回值添加为该节点的子节点(传递在此节点的构造函数中)(自下而上)。这里应该有一些我想念的东西,因为我不同意这种语法“错误”的说法 并且这种语法已用于多种语言,尤其是。威斯安的。通常(或全部?)说它促进 LR 解析而不是 LL 的阅读。

4

2 回答 2

1

我认为这里的问题是一种语言具有抽象语法,就像:

E ::= E + E | E - E | E * E | E / E | Int | (E)

但这实际上是通过用于指定关联性和优先级的具体语法实现的。因此,如果您正在编写一个像样的递归解析,那么您会在进行过程中隐式地将具体语法写入其中,这很好,尽管将其完全指定为短语结构语法也可能会很好!

如果要成为成熟的具体语法,您的语法有几个问题。首先,您需要添加产生式以“进入下一个级别”,因此请稍微放松一下语法:

Expr ::= Term + Term | Term - Term | Term
Term ::= Factor * Factor | Factor / Factor | Factor
Factor ::= INTEGER | (Expr)

否则,无法从开始符号(在本例中为 Expr)导出有效句子。例如,如果没有这些额外的产生,你将如何推导出“1 * 2”?

Expr -> Term
     -> Factor * Factor
     -> 1 * Factor
     -> 1 * 2

我们可以看到其他语法以稍微不同的方式处理这个问题:

Expr -> Term Expr'
     -> Factor Term' Expr'
     -> 1 Term' Expr'
     -> 1 * Factor Term' Expr'
     -> 1 * 2 Term' Expr'
     -> 1 * 2 ε Expr'
     -> 1 * 2 ε ε
      = 1 * 2

但这达到了相同的效果。

您的解析器实际上是非关联的。看到这个问如何E + E + E解析并发现它不能。无论哪个+先被消耗,我们都会E在一边和另一边得到E + E,但随后我们试图将其解析E + ETerm不可能的。等效地,考虑从开始符号派生该表达式,这也是不可能的。

Expr -> Term + Term
     -> ? (can't get another + in here)

E + E + ... + E另一种语法是左结合的,可以推导出任意长的字符串。

所以无论如何,总而言之,你是对的,在编写 RDP 时,你可以实现任何你喜欢的抽象语法的具体版本,而且你可能比我更了解这一点。但是在尝试生成准确描述您的 RDP 的语法时会出现这些问题。希望有帮助!

于 2012-06-02T09:11:42.137 回答
1

要获得关联树,您确实需要使用运算符作为子树根节点形成树,并且子树具有相似的根。

您的实现语法:

Expr  ::= Term Expr'
Expr' ::= ( "+" | "-" ) Term Expr' | ε
Term  ::= Factor Term'
Term' ::= ( "*" | "/" ) Factor Term' | ε
Factor ::= INTEGER | "(" Expr ")"

一定会让这很尴尬;如果您对此实现递归下降,则 Expr 例程无法访问“左孩子”,因此无法构建树。您总是可以通过传递碎片来修补它(在这种情况下,将树的部分传递给递归),但这看起来很尴尬。您可以选择它作为语法:

Expr  ::= Term  ( ("+"|"-") Term )*;
Term  ::= Factor ( ( "*" | "/" ) Factor )* ;
Factor ::= INTEGER | "(" Expr ")"

这同样容易(更容易?)以递归方式编写代码,但现在您可以轻松形成所需的树。

这并不能真正让您获得关联性。它只是塑造树木,以便它可以被允许。关联性意味着树 (+ (+ ab) c) 与 (+ a (+ bc)) 的意思相同;它实际上是一个语义属性(肯定不适用于“-”,但所提出的语法无法区分)。

我们有一个工具(DMS Software Reengineering Toolkit),其中包括解析器术语重写(使用源到源转换),其中明确表达了关联性。我们会写下你的语法:

Expr  ::= Term ;
[Associative Commutative] Expr  ::= Expr "+" Term ;
Expr  ::= Expr "-" Term ;
Term  ::= Factor ;
[Associative Commutative] Term  ::= Term "*" Factor ;
Term  ::= Term "/" Factor ;
Factor ::= INTEGER ;
Factor ::= "(" Expr ")" ;

这样语法看起来更长更笨拙,但实际上它允许我们分解特殊情况并根据需要标记它们。特别是,我们现在可以区分具有关联性和不具有关联性的运算符,并相应地标记它们。使用该语义标记,我们的树重写引擎会自动考虑关联性和交换性。您可以看到此类 DMS 规则的完整示例,该示例使用无需考虑此类语义属性的典型表达式语法的显式重写规则来象征性地简化高中代数。这是内置在重写引擎中的。

于 2012-06-02T10:48:07.753 回答