2

我想解析几个缩进或格式化为数组的命令列表Parsec。例如,我的列表格式如下:

Command1 arg1 arg2       Command1 arg1 arg2         Command1 arg1 arg2
Command2 arg1                                       Command3 arg1 arg2 arg3
                         Command3 arg1 arg2 arg3
                                                    Command4
Command3 arg1 arg2 arg3  Command2 arg1
                         Command4
Command4
Command5 arg1                                       Command2 arg1

这些命令应该通过解析器中的状态更改逐列解析。

我的想法是将命令收集到单独的字符串列表中,并将这些字符串解析为子解析器(在主解析器内执行)。

我检查了 Parsec 库的 API,但没有找到执行此操作的函数。

我考虑过使用runParser,但这个函数只提取解析器的结果,而不是它的状态。

我还考虑制作一个受启发的函数runParsecTmkPT制作我自己的解析器,但构造函数ParsecTinitialPos不可用(不由库导出)

是否可以在解析器中运行子解析器Parsec

如果没有,像megaparsec这样的库可以解决我的问题吗?

4

2 回答 2

4

不是一个完整的答案,更多的是一个需要澄清的问题:

是否有必要建立一个字符串列表?我更愿意解析输入并将其转换为更特殊的数据类型。这样你就可以使用haskell的类型保证。

我将首先为我的命令定义一个数据类型:

data Command = Command1 Argtype1 
               | Command2 Argtype2
               | Command3 Argtype1 Argtype2

data Argtype1 = Arg1 | Arg2 | ArgX
data Argtype2 = Arg2_1 | Arg2_2 

之后,您可以解析输入并将其放入数据类型中。

在解析结束时,您可以获得mappend结果(即在前面添加带有操作 (:) 的列表)。

您最终会得到 [Command] 的数据类型。有了它,您可以进一步工作。

要解析文本,您可以按照 ( https://markkarpov.com/megaparsec/parsing-simple-imperative-language.html )上的包 megaparsec 的介绍进行操作


或者你的意思是完全不同的东西?也许每一行(包含一些命令)作为一个整体应该是状态机的一个输入,并且状态机相对于命令而变化?然后我想知道为什么状态机要实现为解析器。

于 2019-01-29T23:37:53.743 回答
2

作为起点,“如何制作子解析器”的最简单答案是使用库提供的单子 bind、applicative <*>、alternative<|>和组合器。假设每个命令都属于一种类型(如 Hans Kruger 的回答),并且具有任意数量的列,下面可能是一个很好的模板。

import Text.Parsec
import Text.Parsec.Char
import Data.List(transpose)

cmdFileParser :: Parsec s u [[CommandType]] 
cmdFileParser = sepBy sepParser cmdLineParser
   where
     sepParser = newline --From Text.Parsec.Char

cmdLineParser :: Parsec s u [CommandType]
cmdLineParser = sepBy sepParser cmdParser
   where
     sepParser = tab


cmdParser :: Parsec s u CommandType
cmdParser =   parseCommand1
              <|> parseCommand2
              <|> parseCommand3 
              <|> etc 

然后,在解析之后,[[CommandType]]按列转置到分组命令

main = do
  ...
  let ret = runParser cmdFileParser 
                       "debug string telling what was parsed" 
                       stringToParse
  case ret of
    Left e -> putStrLn "wasn't parsed"
    Right cmds -> doSomethingWith (transpose cmds)

我会说上面是一种典型的方法。当然也有变化。例如,如果您知道应该只有三列,那么您可能有cmdLineParser下面的而不是上面的

cmdLineParser :: Parsec s u (CommandType,CommandType,CommandType)
cmdLineParser = (\a b c -> (a,b,c)) <$> ct <*> ct <*> cmdParser
   where
     ct = cmdParser <* tab

我会说使用getState是非典型的。当我第一次开始使用 Parsec 时,我记得在工作后得到了一些我认为你的东西,但它并不漂亮。当然,如果您真的只想返回字符串,您可以随时解析除换行符和制表符之外的任何字符。

cmdParser :: Parsec s u String
cmdParser = many (noneOf "\n\t")

虽然,小心使用上述内容。我以前在我的使用中被烧毁了many,它需要太多或总是成功。所以我不太相信那个确切的公式会给你命令字符串。此外,如果您只是将该命令解析为字符串,然后重新解析您的命令main,您将解析两次!

于 2019-01-30T15:41:02.593 回答