我正在编写一个 Scala 解析器组合器语法,它读取换行符分隔的单词列表,其中列表由一个或多个空行分隔。给定以下字符串:
cat
mouse
horse
apple
orange
pear
我想让它返回List(List(cat, mouse, horse), List(apple, orange, pear))
。
我编写了这个基本语法,它将单词列表视为换行符分隔的单词。请注意,我必须覆盖whitespace
.
import util.parsing.combinator.RegexParsers
object WordList extends RegexParsers {
private val eol = sys.props("line.separator")
override val whiteSpace = """[ \t]+""".r
val list: Parser[List[String]] = repsep( """\w+""".r, eol)
val lists: Parser[List[List[String]]] = repsep(list, eol)
def main(args: Array[String]) {
val s =
"""cat
|mouse
|horse
|
|apple
|orange
|pear""".stripMargin
println(parseAll(lists, s))
}
}
这错误地将空行视为空单词列表,即它返回
[8.1] parsed: List(List(cat, mouse, horse), List(), List(apple, orange, pear))
(注意中间的空列表。)
我可以在每个列表的末尾放置一个可选的行尾。
val list: Parser[List[String]] = repsep( """\w+""".r, eol) <~ opt(eol)
这可以处理列表之间只有一个空行的情况,但是对于多个空行有同样的问题。
我尝试更改lists
定义以允许多个行尾分隔符:
val lists:Parser[List[List[String]]] = repsep(list, rep(eol))
但这取决于上述输入。
将多个空行作为分隔符处理的正确语法是什么?