9

我正在为我的 F# Lexer 和 Parser 使用 fslex/fsyacc 实用程序。如果输入文本的语法不正确,则有必要知道它发生的位置。

可以在 Lexer 中确定不正确的词位(标记)并在使用不正确的符号或单词时抛出异常:

rule token = parse
          ...      
  | integer   { INT (Int32.Parse(lexeme lexbuf)) }
  | "*="      { failwith "Incorrect symbol" }
  | eof       { EOF }

这个问题更多地与 Parser (fsyacc) 相关 - 如果输入文本具有正确的标记并且被 Lexer 成功标记化,但在解析期间发生错误(例如,不正确的标记顺序或规则中缺少某些标记)

我知道如果捕获异常,这给出解析失败的位置(行和列):

try
   Parser.start Lexer.token lexbuf
with e ->
   let pos = lexbuf.EndPos
   let line = pos.Line
   let column = pos.Column
   let message = e.Message  // "parse error"
    ... 

但是是否有可能(如果是 - 怎么做?)也可以确定解析失败的 AST 类

例如,是否可以在我的 parser.fsy 文件中编写类似于以下内容的内容:

Expression1: 
   | INT         { Int $1 }
     ...
   | _           { failwith "Error with parsing in Expression1"}
4

1 回答 1

9

只是跳过“_”应该会导致移位/减少冲突。对于一小组令牌,您可以将它们全部列出。对于更大的令牌集,问题就更大了。

F# 编译器通过定义早期规则的前缀来执行类似的操作,并设置错误状态:

atomicPattern:
  ...
  | LPAREN parenPatternBody RPAREN 
      {  let m = (lhs(parseState)) in SynPat.Paren($2 m,m) } 
  | LPAREN parenPatternBody recover 
      { reportParseErrorAt (rhs parseState 1) (FSComp.SR.parsUnmatchedParen()); $2 (rhs2 parseState 1 2) }
  | LPAREN error RPAREN 
      { (* silent recovery *) SynPat.Wild (lhs(parseState)) }
  | LPAREN recover 
      {  reportParseErrorAt (rhs parseState 1) (FSComp.SR.parsUnmatchedParen()); SynPat.Wild (lhs(parseState))}  

recover: 
   | error { true }  
   | EOF { false }

您可以在存储库中看到整个文件。

有关 ocamlyacc/fsyacc 中错误处理的更多信息,请参阅OCaml 手册(第 III 部分 → 词法分析器和解析器生成器 → 错误处理)。

于 2011-03-09T12:32:24.420 回答