3

我遇到了解析器有两个递归分支的问题。为了更容易地演示这个问题,我使用Luca Bolognese 撰写的文章中的 lambda 演算的简单语法作为示例:

<expression> ::= <name> | <function> | <application>  
<name> ::= non­blank character sequence  
<function> ::= \ <name> . <body>  
<body> ::= <expression>  
<application> ::= ( <function expression> <argument expression> )  
<function expression> ::= <expression>  
<argument expression> ::= <expression>

文章中的解析器相当简洁:

let ws = " \t\n" 
let specialChars = ".)(\\\n" 

let pWs = spaces 
let pName = manyChars (noneOf (ws + specialChars)) |>> EName 

let pExpr, pExprRef = createParserForwardedToRef<Expression, Unit>() 

let curry2 f a b = f(a,b) 
let pFunction = pchar '\\' >>. pipe2 pName (pchar '.' >>. pExpr) (curry2 Function) 

let pApplication = pchar '(' >>. pipe2 pExpr (pWs >>. pExpr) (curry2 Application)
                            .>> pWs .>> pchar ')'

do pExprRef := pFunction <|> pApplication <|> pName 

let pExpressions = sepBy pExpr spaces1 

let fparseString text = 
    match run pExpressions text with 
    | Success(result, _, _)   -> result 
    | Failure(errorMsg, _, _) -> failwith (sprintf "Failure: %s" errorMsg) 

我很感兴趣,pApplication因为它们由两个pExprs 组成,而这两个 s 也可能是pApplications。解析器在以下基准测试中耗尽了堆栈空间:

let generateString level =
    let rec loop i =
        seq {
                if i < level then
                    yield "("
                    yield! loop level
                    yield " "
                    yield! loop (i+1)
                    yield ")"
                else 
                    yield "(x x)"
        }
    loop 0 |> String.concat ""

let N = 5000
let s = generateString N;; 
let _ = fparseString s;;

如何将解析器重写为尾递归?

当我尝试为类似 Lisp 的语言编写解析器并使用真实的基准测试它时,我意识到了这个问题。我有TermVarBinding它们是相互递归的类型和一个let解析器,它表现出与上述相同的问题pApplication。我的解析器在 github 上,以防关于非尾递归问题的分析错误。

4

1 回答 1

6

FParsec 的内置解析器组合器通常不允许尾递归解析器实现,主要是因为错误处理的实现方式。

这意味着 FParsec 解析器的递归深度受到堆栈大小的限制——就像大多数递归下降解析器的情况一样。当然,这不会影响对带有many,等的序列的解析sepBychainl因为这些 FParsec 组合器都具有使用恒定堆栈空间的实现。

.NET 中的默认堆栈大小通常足以使用 FParsec 以明确指定的格式解析人工生成的输入(假设您使用内置组合器解析序列)。但是,具有深度嵌套结构的机器生成输入(例如您的 5000 级深度 s 表达式)很容易导致堆栈溢出。

如果您事先知道输入中的嵌套深度限制在一个合理的值,您可以简单地将堆栈大小增加到适当的值。希望这适用于您的基准数据。

否则,您可能必须为语法的递归元素实现一个特殊用途的解析器函数。您将需要使用 FParsec 的低级API实现此功能,并且您显然必须实现此功能,以便它使用堆而不是堆栈来跟踪嵌套上下文和中间解析结果。

于 2012-02-12T22:33:34.503 回答