parsing - 解析器中与 IF-THEN-ELSE 三元运算符的命题逻辑冲突

Question

我想为命题逻辑实现解析器，它具有以下优先级递减顺序的运算符：

不是 p
p 和 q
p 或 q
如果 p 那么 q
p IFF q
如果 p 那么 q 其他

主要问题在于 IF-THEN-ELSE 运算符。没有它，我能够正确地编写语法。目前我的 yacc 文件看起来像

%term
    PARSEPROG | AND | NOT | OR | IF | THEN | ELSE | IFF | LPAREN | RPAREN | ATOM of string | SEMICOLON | EOF

%nonterm
    start of Absyn.program | EXP of Absyn.declaration

%start start
%eop EOF SEMICOLON
%pos int
%verbose

%right ELSE
%right IFF
%right THEN
%left AND OR
%left NOT

%name Fol

%noshift EOF

%%

start : PARSEPROG EXP (Absyn.PROGRAM(EXP))


EXP: ATOM ( Absyn.LITERAL(ATOM) )
    | LPAREN EXP RPAREN (EXP)
    | EXP AND EXP ( Absyn.CONJ(EXP1, EXP2) )
    | EXP OR EXP ( Absyn.DISJ(EXP1, EXP2) )
    | IF EXP THEN EXP ELSE EXP ( Absyn.IFTHENELSE(EXP1, EXP2, EXP3) )
    | IF EXP THEN EXP ( Absyn.IMPLI(EXP1, EXP2) )
    | EXP IFF EXP ( Absyn.BIIMPLI(EXP1, EXP2) )
    | NOT EXP ( Absyn.NEGATION(EXP) )

但是我似乎没有正确的想法来消除减少转移冲突。正确解析的一些示例是：

IF a THEN IF b THEN c________a->(b->c)
IF a THEN IF b THEN c ELSE d IFF e OR f_______IFTHENELSE(a,b->c,d<=>e/\f)

任何帮助/指针都会非常有帮助。谢谢。

score 1 · Accepted Answer

让我的 Yacc 坐起来乞求

我比以往任何时候都更加确信这里的正确方法是 GLR 语法，如果可能的话。然而，受@Kaz 的启发，我使用 LALR(1) 语法（甚至不使用优先级声明）生成了以下 yacc/bison 语法。

当然，它会作弊，因为问题不能用 LALR(1) 语法解决。IF THEN在适当的时间间隔，它遍历和IF THEN ELSE表达式的构造树，并ELSE根据需要移动子句。

需要为可能的运动重新检查的节点被赋予 AST 节点类型，IFSEQ并且ELSE使用经典的匹配如果/不匹配如果语法，使用传统的最紧密匹配语法附加子句。完全匹配的IF THEN ELSE子句不需要重新排列；树重写将应用于与ELSE右手操作数不匹配的第一个相关的表达式（如果有的话）。将表达式的完全匹配前缀与IF需要重新排列的尾部分开需要几乎重复一些规则；几乎重复的规则不同之处在于它们的动作直接产生TERNARY节点而不是IFSEQ节点。

为了正确回答这个问题，还需要重新排列一些IFF节点，因为IFF绑定比从句更弱，比THEN从句更紧密ELSE。我认为这意味着：

IF p THEN q IFF IF r THEN s  ==>  ((p → q) ↔ (r → s))
IF p THEN q IFF r ELSE s IFF t ==> (p ? (q ↔ r) : (s ↔ t))
IF p THEN q IFF IF r THEN s ELSE t IFF u ==> (p ? (q ↔ (r → s)) : (t ↔ u))

虽然我不确定这是什么要求（尤其是最后一个），但我真的不认为这是一个好主意。在下面的语法中，如果要IFF应用于IF p THEN q子表达式，则必须使用括号；IF p THEN q IFF r产生p → (q ↔ r)并且p IFF IF q THEN r是语法错误。

坦率地说，我认为将箭头用于条件和双条件会更容易（如上面的注释中所示），并且IF THEN ELSE仅用于三元选择器表达式（上面用 C 样式? :语法编写，这是另一种可能性）。这将产生更少的惊喜。但这不是我的语言。

具有浮动优先级的双条件运算符的一种解决方案是分两次解析。第一遍将仅识别IF p THEN q没有附加的运算符ELSE，使用类似于此处提出的机制，并p -> q通过删除IF和更改拼写来更改它们THEN。其他运算符不会被解析并保留括号。然后它将生成的令牌流馈送到具有更传统语法风格的第二个 LALR 解析器。我可能会转而编写代码，只是因为我认为两遍野牛解析器偶尔有用，而且很少有例子漂浮。

这是树重写解析器。我为长度道歉：

%{
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

void yyerror(const char* msg);
int yylex(void);

typedef struct Node Node;
enum AstType { ATOM, NEG, CONJ, DISJ, IMPL, BICOND, TERNARY,
               IFSEQ
};
struct Node {
  enum AstType type;
  union {
    const char* atom;
    Node* child[3];
  };
};
Node* node(enum AstType type, Node* op1, Node* op2, Node* op3);
Node* atom(const char* name);
void  node_free(Node*);
void  node_print(Node*, FILE*);

typedef struct ElseStack ElseStack;
struct ElseStack {
  Node* action;
  ElseStack* next;
};

ElseStack* build_else_stack(Node*, ElseStack*);
ElseStack* shift_elses(Node*, ElseStack*);
%}

%union {
  const char* name;
  struct Node* node;
}

%token <name> T_ID
%token T_AND  "and"
       T_ELSE "else"
       T_IF   "if"
       T_IFF  "iff"
       T_NOT  "not"
       T_OR   "or"
       T_THEN "then"
%type <node> term conj disj bicond cond mat unmat tail expr

%%
prog : %empty | prog stmt;
stmt : expr '\n'       { node_print($1, stdout); putchar('\n'); node_free($1); }
     | '\n'
     | error '\n'
term : T_ID            { $$ = atom($1); }
     | "not" term      { $$ = node(NEG, $2, NULL, NULL); }
     | '(' expr ')'    { $$ = $2; }
conj : term
     | conj "and" term { $$ = node(CONJ, $1, $3, NULL); }
disj : conj
     | disj "or" conj  { $$ = node(DISJ, $1, $3, NULL); }
bicond: disj
     | disj "iff" bicond { $$ = node(BICOND, $1, $3, NULL); }
mat  : bicond
     | "if" expr "then" mat "else" mat
                       { $$ = node(IFSEQ, $2, $4, $6); }
unmat: "if" expr "then" mat
                       { $$ = node(IFSEQ, $2, $4, NULL); }
     | "if" expr "then" unmat
                       { $$ = node(IFSEQ, $2, $4, NULL); }
     | "if" expr "then" mat "else" unmat
                       { $$ = node(IFSEQ, $2, $4, $6); }
tail : "if" expr "then" mat
                       { $$ = node(IFSEQ, $2, $4, NULL); }
     | "if" expr "then" unmat
                       { $$ = node(IFSEQ, $2, $4, NULL); }
cond : bicond
     | tail            { shift_elses($$, build_else_stack($$, NULL)); }
     | "if" expr "then" mat "else" cond
                       { $$ = node(TERNARY, $2, $4, $6); }
expr : cond

%%

/* Walk the IFSEQ nodes in the tree, pushing any
 * else clause found onto the else stack, which it
 * returns. 
 */
ElseStack* build_else_stack(Node* ifs, ElseStack* stack) {
  if (ifs && ifs->type != IFSEQ) {
    stack = build_else_stack(ifs->child[1], stack);
    if (ifs->child[2]) { 
      ElseStack* top = malloc(sizeof *top);
      *top = (ElseStack) { ifs->child[2], stack };
      stack = build_else_stack(ifs->child[2], top);
    }
  }
  return stack;
}
/* Walk the IFSEQ nodes in the tree, attaching elses from
 * the else stack.
 * Pops the else stack as it goes, freeing popped 
 * objects, and returns the new top of the stack.
 */
ElseStack* shift_elses(Node* n, ElseStack* stack) {
  if (n && n->type == IFSEQ) {
    if (stack) {
      ElseStack* top = stack;
      stack = shift_elses(n->child[2],
                          shift_elses(n->child[1], stack->next));
      n->type = TERNARY;
      n->child[2] = top;
      free(top);
    }
    else {
      shift_elses(n->child[2],
                  shift_elses(n->child[1], NULL));
      n->type = IMPL; 
      n->child[2] = NULL;
    }
  }
  return stack;
}
  
Node* node(enum AstType type, Node* op1, Node* op2, Node* op3) {
  Node* rv = malloc(sizeof *rv);
  *rv = (Node){type, .child = {op1, op2, op3}};
  return rv;
}

Node* atom(const char* name) {
  Node* rv = malloc(sizeof *rv);
  *rv = (Node){ATOM, .atom = name};
  return rv;
}

void node_free(Node* n) {
  if (n) {
    if (n->type == ATOM) free((char*)n->atom);
    else for (int i = 0; i < 3; ++i) node_free(n->child[i]);
    free(n);
  }
}

const char* typename(enum AstType type) {
  switch (type) {
    case ATOM:    return "ATOM";
    case NEG:     return "NOT" ;
    case CONJ:    return "CONJ";
    case DISJ:    return "DISJ";
    case IMPL:    return "IMPL";
    case BICOND:  return "BICOND";
    case TERNARY: return "TERNARY" ;
    case IFSEQ:   return "IF_SEQ";
  }
  return "**BAD NODE TYPE**";
}

void node_print(Node* n, FILE* out) {
  if (n) {
    if (n->type == ATOM)
      fputs(n->atom, out);
    else {
      fprintf(out, "(%s", typename(n->type));
      for (int i = 0; i < 3 && n->child[i]; ++i) {
        fputc(' ', out); node_print(n->child[i], out);
      }
      fputc(')', out);
    }
  }
}

void yyerror(const char* msg) {
  fprintf(stderr, "%s\n", msg);
}

int main(int argc, char** argv) {
  return yyparse();
}

词法分析器几乎是微不足道的。（这个使用小写关键字，因为我的手指更喜欢那个，但改变起来很简单。）

%{
#include "ifelse.tab.h"
%}

%option noinput nounput noyywrap nodefault

%%

and          { return T_AND;  }
else         { return T_ELSE; }
if           { return T_IF;   }
iff          { return T_IFF;  }
not          { return T_NOT;  }
or           { return T_OR;   }
then         { return T_THEN; }

[[:alpha:]]+ { yylval.name = strdup(yytext);
               return T_ID;   }

([[:space:]]{-}[\n])+ ;
\n           { return '\n';   }
.            { return *yytext;}

如所写，解析器/词法分析器一次读取一行，并为每一行打印 AST（因此不允许多行表达式）。我希望很清楚如何改变它。

score 0 · Accepted Answer

处理此要求的一种相对简单的方法是创建一个过度生成的语法，然后使用语义拒绝我们不想要的语法。

具体来说，我们使用这样的语法：

expr : expr AND expr
     | expr OR expr
     | expr IFF expr
     | IF expr THEN expr
     | expr ELSE expr   /* generates some sentences we don't want! */
     | '(' expr ')'
     | ATOM
     ;

请注意，这ELSE只是一个普通的低优先级运算符：任何表达式后面都可以跟ELSE另一个表达式。但是在语义规则中，我们实现了一个检查，左边ELSE是一个IF表达式。如果不是，那么我们会引发错误。

这种方法不仅易于实施，而且易于为最终用户记录文档，因此易于理解和使用。最终用户可以接受一个简单的理论，ELSE即只是另一个具有非常低优先级的二元运算符，以及一个在不与IF/THEN.

这是我编写的完整程序的测试运行（使用经典的 Yacc，用 C 语言）：

$ echo 'a AND b OR c' | ./ifelse 
OR(AND(a, b), c)
$ echo 'a OR b AND c' | ./ifelse 
OR(a, AND(b, c))
$ echo 'IF a THEN b' | ./ifelse 
IF(a, b)

普通单曲IF/ELSE做我们想要的：

$ echo 'IF a THEN b ELSE c' | ./ifelse 
IFELSE(a, b, c)

你追求的关键是：

$ echo 'IF a THEN IF x THEN y ELSE c' | ./ifelse
IFELSE(a, IF(x, y), c)

正确地，ELSE与外部一起去IF。这是 bad 的错误案例ELSE：

$ echo 'a OR b ELSE c' | ./ifelse 
error: ELSE must pair with IF
<invalid>

这是强制通常的“else with most if”行为的括号：

$ echo 'IF a THEN (IF x THEN y ELSE c)' | ./ifelse 
IF(a, IFELSE(x, y, c))

该程序通过构建一个 AST 然后遍历它以前缀F(X, Y)语法打印它来显示它正在使用的解析。（为此，作为一名 Lisp 程序员，我不得不稍微抑制一下作呕反射）。

AST 结构也允许ELSE规则检测其左参数是否是正确类型的表达式。

注意：您可能希望处理以下内容，但事实并非如此：

$ echo 'IF a THEN IF x THEN y ELSE z ELSE w' | ./ifelse 
error: ELSE must pair with IF
<invalid>

这里的问题是ELSE w与IFELSE表达式配对。

一种更复杂的方法是可能的，这可能是有趣的探索。解析器可以将ELSE其视为普通的二元运算符并以AST这种方式生成。然后一个完整的单独遍历可以检查树的有效ELSE使用情况并根据需要对其进行转换。或者，也许我们可以在这里发挥关联性，ELSE并以某种合适的方式处理解析器操作中的级联ELSE。

完整的源代码，我保存在一个名为ifelse.y并使用以下方法构建的文件中：

$ yacc ifelse.y
$ gcc -o ifelse y.tab.c

在这儿：

%{

#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include <ctype.h>

typedef struct astnode {
  int op;
  struct astnode *left, *right;
  char *lexeme;
} astnode;

void yyerror(const char *s)
{
  fprintf(stderr, "error: %s\n", s);
}

void *xmalloc(size_t size)
{
  void *p = malloc(size);
  if (p)
    return p;

  yyerror("out of memory");
  abort();
}

char *xstrdup(char *in)
{
  size_t sz = strlen(in) + 1;
  char *out = xmalloc(sz);
  return strcpy(out, in);
}

astnode *astnode_cons(int op, astnode *left, astnode *right, char *lexeme)
{
  astnode *a = xmalloc(sizeof *a);
  a->op = op;
  a->left = left;
  a->right = right;
  a->lexeme = lexeme;
  return a;
}

int yylex(void);

astnode *ast;

%}

%union {
  astnode *node;
  char *lexeme;
  int none;
}

%token<none> '(' ')'

%token<lexeme> ATOM

%left<none> ELSE
%left<none> IF THEN
%right<none> IFF
%left<none> OR
%left<none> AND

%type<node> top expr

%%

top : expr { ast = $1; }

expr : expr AND expr
       { $$ = astnode_cons(AND, $1, $3, 0); }
     | expr OR expr
       { $$ = astnode_cons(OR, $1, $3, 0); }
     | expr IFF expr
       { $$ = astnode_cons(IFF, $1, $3, 0); }
     | IF expr THEN expr
       { $$ = astnode_cons(IF, $2, $4, 0); }
     | expr ELSE expr
       { if ($1->op != IF)
         { yyerror("ELSE must pair with IF");
           $$ = 0; }
         else
         { $$ = astnode_cons(ELSE, $1, $3, 0); } }
     | '(' expr ')'
       { $$ = $2; }
     | ATOM
       { $$ = astnode_cons(ATOM, 0, 0, $1); }
     ;

%%

int yylex(void)
{
  int ch;
  char tok[64], *te = tok + sizeof(tok), *tp = tok;

  while ((ch = getchar()) != EOF) {
    if (isalnum((unsigned char) ch)) {
      if (tp >= te - 1)
        yyerror("token overflow");
      *tp++ = ch;
    } else if (isspace(ch)) {
      if (tp > tok)
        break;
    } else if (ch == '(' || ch == ')') {
      if (tp == tok)
        return ch;
      ungetc(ch, stdin);
      break;
    } else {
      yyerror("invalid character");
    }
  }

  if (tp > tok) {
    yylval.none = 0;
    *tp++ = 0;
    if (strcmp(tok, "AND") == 0)
      return AND;
    if (strcmp(tok, "OR") == 0)
      return OR;
    if (strcmp(tok, "IFF") == 0)
      return IFF;
    if (strcmp(tok, "IF") == 0)
      return IF;
    if (strcmp(tok, "THEN") == 0)
      return THEN;
    if (strcmp(tok, "ELSE") == 0)
      return ELSE;
    yylval.lexeme = xstrdup(tok);
    return ATOM;
  }

  return 0;
}

void ast_print(astnode *a)
{
  if (a == 0) {
    fputs("<invalid>", stdout);
    return;
  }

  switch (a->op) {
  case ATOM:
    fputs(a->lexeme, stdout);
    break;
  case AND:
  case OR:
  case IF:
  case IFF:
    switch (a->op) {
    case AND:
      fputs("AND(", stdout);
      break;
    case OR:
      fputs("OR(", stdout);
      break;
    case IF:
      fputs("IF(", stdout);
      break;
    case IFF:
      fputs("IFF(", stdout);
      break;
    }
    ast_print(a->left);
    fputs(", ", stdout);
    ast_print(a->right);
    putc(')', stdout);
    break;
  case ELSE:
    fputs("IFELSE(", stdout);
    ast_print(a->left->left);
    fputs(", ", stdout);
    ast_print(a->left->right);
    fputs(", ", stdout);
    ast_print(a->right);
    putc(')', stdout);
    break;
  }
}

int main(void)
{
   yyparse();
   ast_print(ast);
   puts("");
   return 0;
}

parsing - 解析器中与 IF-THEN-ELSE 三元运算符的命题逻辑冲突

2 回答 2

让我的 Yacc 坐起来乞求

Related

Reference