1

我正在使用 F# 和 FParsec 开发一个多部分 MIME 解析器。我正在迭代开发,所以这是高度未精炼、脆弱的代码——它只解决了我的第一个直接问题。红色,绿色,重构。

我需要解析一个流而不是一个字符串,这真的让我陷入了循环。鉴于该约束,据我所知,我需要递归调用解析器。如何做到这一点超出了我的理解,至少以我迄今为止的方式进行。

namespace MultipartMIMEParser

open FParsec
open System.IO

type private Post = { contentType : string
                    ; boundary    : string
                    ; subtype     : string
                    ; content     : string }

type MParser (s:Stream) =
  let ($) f x = f x
  let ascii = System.Text.Encoding.ASCII
  let str cs = System.String.Concat (cs:char list)
  let q = "\""
  let qP = pstring q
  let pSemicolon = pstring ";"
  let manyNoDoubleQuote = many $ noneOf q
  let enquoted = between qP qP manyNoDoubleQuote |>> str
  let skip = skipStringCI
  let pContentType = skip "content-type: "
                     >>. manyTill anyChar (attempt $ preturn () .>> pSemicolon)
                     |>> str
  let pBoundary = skip " boundary=" >>. enquoted
  let pSubtype = opt $ pSemicolon >>. skip " type=" >>. enquoted
  let pContent = many anyChar |>> str // TODO: The content parser needs to recurse on the stream.
  let pStream = pipe4 pContentType pBoundary pSubtype pContent
                      $ fun c b t s -> { contentType=c; boundary=b; subtype=t; content=s }
  let result s = match runParserOnStream pStream () "" s ascii with
                 | Success (r,_,_) -> r
                 | Failure (e,_,_) -> failwith (sprintf "%A" e)
  let r = result s
  member p.ContentType = r.contentType
  member p.Boundary = r.boundary
  member p.ContentSubtype = r.subtype
  member p.Content = r.content

示例 POST 的第一行如下:

content-type: Multipart/related; boundary="RN-Http-Body-Boundary"; type="multipart/related"

它跨越文件中的一行。内容中的其他子部分包括content-type跨越多行的值,所以我知道如果要重用它们,我必须改进我的解析器。

我必须以某种方式调用pContent(字符串?)结果,pBoundary以便我可以在适当的边界上拆分流的其余部分,然后以某种方式返回帖子内容的多个部分,每个部分都是单独的post,带有标题和内容(显然必须是字符串以外的内容)。我的头在旋转。这段代码看起来太复杂了,无法解析一行。

非常感谢洞察力和智慧!

4

1 回答 1

2

这是一个片段,可能会让你朝着正确的方向前进。

让您的解析器吐出具有相同基本类型的内容。为此,我更喜欢使用 F# 的可区分联合。如果您确实需要将值推送到 Post 类型,请遍历返回的 AST 树。这就是我接近它的方式。

#if INTERACTIVE
#r"""..\..\FParsecCS.dll"""    // ... edit path as appropriate to bin/debug, etc.
#r"""..\..\FParsec.dll"""
#endif

let packet = @"content-type: Multipart/related; boundary=""RN-Http-Body-Boundary""; type=""multipart/related""

--RN-Http-Body-Boundary
Message-ID: <25845033.1160080657073.JavaMail.webmethods@exshaw>
Mime-Version: 1.0
Content-Type: multipart/related; type=""application/xml"";
  boundary=""----=_Part_235_11184805.1160080657052""

------=_Part_235_11184805.1160080657052
Content-Type: Application/XML
Content-Transfer-Encoding: binary
Content-Location: RN-Preamble
Content-ID: <1430586.1160080657050.JavaMail.webmethods@exshaw>"

//XML document begins here...

type AST =
| Document of AST list
| Header of AST list
/// ie. Content-Type is the tag, and it consists of a list of key value pairs
| Tag of string * AST list  
| KeyValue of string * string
| Body of string

上面的 AST DU 可以代表您在其他问题中发布的示例数据的第一遍。它可能比这更细粒度,但通常越简单越好。我的意思是,您示例中的最终目标是 Post 类型,您可以通过一些简单的模式匹配来实现。

于 2014-11-12T11:39:11.790 回答