parsing - 使用 Haskell 在引号之间解析

Question

要求取自DOT 语言规范，更准确地说，我正在尝试解析[ID]属性，例如，

任何可能包含转义引号 (\")1 的双引号字符串 ("...")；

以下应该是一个最小的示例。

{-# LANGUAGE OverloadedStrings #-}
module Main where

import           Text.Megaparsec
import           Text.Megaparsec.Char
import           Data.Void
import           Data.Char
import           Data.Text               hiding ( map
                                        , all
                                        , concat
                                        )

type Parser = Parsec Void Text

escape :: Parser String
escape = do
    d <- char '\\'
    c <- oneOf ['\\', '\"', '0', 'n', 'r', 'v', 't', 'b', 'f']
    return [d, c]

nonEscape :: Parser Char
nonEscape = noneOf ['\\', '\"', '\0', '\n', '\r', '\v', '\t', '\b', '\f']

identPQuoted :: Parser String
identPQuoted =
    let inner = fmap return (try nonEscape) <|> escape
    in  do
      char '"'
      strings <- many inner
      char '"'
      return $ concat strings

identP :: Parser Text
identP = identPQuoted >>= return . pack

main = parseTest identP "\"foo \"bar\""

上面的代码在第二次失败并返回"foo "，即使我想要foo "bar

我不明白为什么。我认为这megaparsec会重复应用inner，直到它解析最终的". 但它只是重复应用nonEscape解析器，第一次失败，它使用escape，然后似乎跳过了内部字符串的其余部分，然后继续到最后的引号。

score 7 · Accepted Answer

您的输入文本是"foo "bar"，其中不包含任何转义引号。它被解析为一个完整的 ID "foo "（后跟bar"，被忽略）。

如果您想确保您的解析器使用所有可用的输入，您可以使用

parseTest (identP <* eof) "..."

如果您想向解析器提供带有转义引号的 ID，如下所示...

"foo \"bar"

...然后您需要转义所有特殊字符以将它们嵌入到 Haskell 源代码中：

main = parseTest identP "\"foo \\\"bar\""

\"代表一个字面量"和\\代表一个字面量\。

parsing - 使用 Haskell 在引号之间解析

1 回答 1

Related

Reference