我想解析一个 HTML 文档并将每个段落作为单独的条目打印到日志文件中。到目前为止,我有:
let parseTextFile (path) =
let fileText = File.ReadAllText(path)
fileText.Split('<p>') |> Seq.iter (fun m -> logEmail(m))
但对我来说不幸的是 string.Split 在这里没有做我想要的,似乎存在用单个字符分隔符分割字符串。我如何使用不只是一个字符的东西来分割文件,除了 <p> 之外还有其他东西可能会很好,因为我将在段落末尾有一个 </p> 。使用正则表达式或某种复杂的匹配器,我可以更具体地挑选出 <p> 标记之间的所有内容。