python - python在多行上拆分正则表达式模式

Question

我试图将正则表达式模式拆分为多行，但它似乎只拾取最后一行中指定的模式。下面的例子说明了这个问题：

>>> o = re.compile(r'\btext1\b\
... |\btext2\b\
... |\btext3\b')
>>> print o.search(x)
None
>>> x
'text1'
>>> x = 'text3'
>>> print o.search(x)
<_sre.SRE_Match object at 0x025E4CD0>
>>> x = 'text2'
>>> print o.search(x)
None

如何跨多行编写此行：

>>> o = re.compile(r'\btext1\b|\btext2\b|\btext3\b')

score 3 · Accepted Answer

使用re.VERBOSE（或re.X）标志。

或者放在(?x)正则表达式里面。

>>> import re
>>> o = re.compile(r'''
... \btext1\b |
... \btext2\b |
... \btext3\b
... ''', flags=re.VERBOSE)
>>> o.search('text1')
<_sre.SRE_Match object at 0x0000000001E58578>
>>> o.search('text2')
<_sre.SRE_Match object at 0x0000000002633370>
>>> o.search('text3')
<_sre.SRE_Match object at 0x0000000001E58578>
>>> o.search('text4')
>>>

score 0 · Accepted Answer

如果您使用\在源代码中的行尾继续一个字符串，则放置在那里的换行符将是该字符串的一部分。

我建议改用以下语法之一：

o = re.compile(r'\btext1\b'
               r'|\btext2\b'
               r'|\btext3\b')

或者

o = re.compile(r'\btext1\b|\btext2\b|\btext3\b')

或使用re.VERBOSE@falsetru 在他的回答中提出的标志，以便能够插入空格字符（如换行符），在编译模式时，正则表达式模式解析器将跳过这些字符。

调试提示：您可以输出o.pattern：

print o.pattern

检查编译的正则表达式所基于的模式。这将向您展示您的案例中的问题。

python - python在多行上拆分正则表达式模式

2 回答 2

Related

Reference