rust - LR(1) 移位/减少歧义

Question

给定带有重复BLOCKs 的输入，其中每个块都有重复BEGIN EVENT和END EVENT条目（END EVENT总是跟在 a之后BEGIN EVENT）：

[TIMESTAMP] BLOCK
[TIMESTAMP] BEGIN EVENT
[TIMESTAMP] END EVENT
[TIMESTAMP] BEGIN EVENT
[TIMESTAMP] END EVENT
...
[TIMESTAMP] BLOCK

你如何用 LR(1) 来消除这个语法的歧义？我正在使用LALRPOP，最小的例子是：

Timestamp = "[TIMESTAMP]";
BlockHeader = Timestamp "BLOCK";
Begin = Timestamp "BEGIN" "EVENT";
End = Timestamp "END" "EVENT";

Block = BlockHeader (Begin End)+;
pub Blocks = Block*

因为 LR(1) 只能向前看一个标记，所以这个语法是模棱两可的，因为 LALRPOP 有用地告诉你（部分错误）：

Local ambiguity detected

  The problem arises after having observed the following symbols in the input:
    BlockHeader (Begin End)+
  At that point, if the next token is a `"[TIMESTAMP]"`, then the parser can proceed in two different ways.

  First, the parser could execute the production at
  /home/<snip>.lalrpop:51:9: 51:32, which would consume
  the top 2 token(s) from the stack and produce a `Block`. This might then yield a parse tree like
    BlockHeader (Begin End)+ Block
    ├─Block────────────────┤     │
    ├─Block+───────────────┘     │
    └─Block+─────────────────────┘

  Alternatively, the parser could shift the `"[TIMESTAMP]"` token and later use it to construct a
  `Timestamp`. This might then yield a parse tree like
    (Begin End)+ "[TIMESTAMP]" "BEGIN" "EVENT" End
    │            ├─Timestamp─┘               │   │
    │            └─Begin─────────────────────┘   │
    └─(Begin End)+───────────────────────────────┘

我看到它告诉我，在解析 BlockHeader、Begin 和 End 之后，它无法确定下一个标记是另一个 Begin 还是另一个 Block 的开始。我还没有找到在 LR(1) 中消除歧义的方法，但我只能假设这是我缺乏理解，而不是 LR(1) 语法的继承限制？

score 2 · Accepted Answer

不幸的是，如果不完全重构语法，这种“需要更多前瞻”问题很难解决，这通常会丢失输入的理想结构，并且有时会接受原始语法会拒绝的退化输入。您通常可以拒绝这些输入并通过对解析树进行后处理来恢复该结构，但这需要更多的工作。在您的情况下，语法：

Timestamp = "[TIMESTAMP]";
BlockHeader = Timestamp "BLOCK";
Begin = Timestamp "BEGIN" "EVENT";
End = Timestamp "END" "EVENT";
Event = Begin End;
Item = BlockHeader | Event;
pub Input = Item*

应该可以解决问题，但问题是它丢失了块结构（而不是给你一个非结构化的块头和事件序列），并且它接受空块。您可以通过对项目列表进行后处理来轻松处理这两个问题。

当所需的前瞻很小且有界时，另一种选择是在标记器中处理它。我不熟悉 LALRPOP，但应该可以将[TIMESTAMP]标记与紧随其后的关键字标记“组合”（因此时间戳不会出现在语法中，而只是关键字的属性），在这种情况下使用单令牌前瞻一切都可以正常工作。

rust - LR(1) 移位/减少歧义

1 回答 1

Related

Reference