如何编写一个正则表达式在 python 中使用来分割段落?
一个段落由 2 个换行符 (\n) 定义。但是可以有任意数量的空格/制表符以及换行符,它仍然应该被视为一个段落。
我正在使用 python,因此该解决方案可以使用扩展的 python正则表达式语法。(可以利用(?P...)
东西)
例子:
the_str = 'paragraph1\n\nparagraph2'
# splitting should yield ['paragraph1', 'paragraph2']
the_str = 'p1\n\t\np2\t\n\tstill p2\t \n \n\tp3'
# should yield ['p1', 'p2\t\n\tstill p2', 'p3']
the_str = 'p1\n\n\n\tp2'
# should yield ['p1', '\n\tp2']
我能提供的最好的方法是:r'[ \t\r\f\v]*\n[ \t\r\f\v]*\n[ \t\r\f\v]*'
,即
import re
paragraphs = re.split(r'[ \t\r\f\v]*\n[ \t\r\f\v]*\n[ \t\r\f\v]*', the_str)
但这很丑陋。有更好的吗?
编辑:
拒绝的建议:
r'\s*?\n\s*?\n\s*?'
-> 这将使示例 2 和 3 失败,因为\s
包含\n
,因此它将允许超过 2\n
秒的段落中断。