python - 详细正则表达式注释中的连字符导致错误

Question

下面的代码有什么问题 - 我在注释中将其精确定位到连字符，但为什么会导致错误？

import re

valid = re.compile(r'''[^
\uFFFE\uFFFF   # non-characters
]''', re.VERBOSE)


Traceback (most recent call last):
  File "valid.py", line 5, in <module>
    ]''', re.VERBOSE)
  File "/usr/local/lib/python3.3/re.py", line 214, in compile
    return _compile(pattern, flags)
  File "/usr/local/lib/python3.3/re.py", line 281, in _compile
    p = sre_compile.compile(pattern, flags)
  File "/usr/local/lib/python3.3/sre_compile.py", line 494, in compile
    p = sre_parse.parse(p, flags)
  File "/usr/local/lib/python3.3/sre_parse.py", line 748, in parse
    p = _parse_sub(source, pattern, 0)
  File "/usr/local/lib/python3.3/sre_parse.py", line 360, in _parse_sub
    itemsappend(_parse(source, state))
  File "/usr/local/lib/python3.3/sre_parse.py", line 506, in _parse
    raise error("bad character range")
sre_constants.error: bad character range

没有连字符的下一段没有错误：

import re

valid = re.compile(r'''[^
\uFFFE\uFFFF   # non characters !! no errors
]''', re.VERBOSE)

编辑：

除了@nhahtdh 的答案之外，字符串连接似乎是另一种以详细样式注释字符类的合理方法：

valid = re.compile( r'[^'
r'\u0000-\u0008'    # C0 block first segment
r'\u000Bu\u000C'    # allow TAB U+0009, LF U+000A, and CR U+000D
r'\u000E-\u001F'    # rest of C0
r'\u007F'           # disallow DEL U+007F
r'\u0080-\u009F'    # All C1 block
r']'                # don't forget this!
r'''
| [0-9]    # normal verbose style
| [a-z]    # another term +++
''', re.VERBOSE)

score 7 · Accepted Answer

根据文档（强调我的）：

re.X
re.VERBOSE

此标志允许您编写看起来更好的正则表达式。模式中的空格被忽略，除非在字符类中或前面有未转义的反斜杠，并且当行包含“#”既不在字符类中也不在前面有未转义的反斜杠时，从最左边开始的所有字符，如 '# ' 到行尾被忽略。

基本上，您不能在字符类中进行注释，并且字符类中的空格被认为是重要的。

由于#在字符类中，它不作为注释，并且字符类中的所有内容都被解析为字符类的一部分，无一例外（甚至换行符也被解析为字符类的一部分）。由于n-c字符范围无效而引发错误。

编写表达式的有效方法是：

valid = re.compile(r'[^\uFFFE\uFFFF]   # non-characters', re.VERBOSE)

当你想解释一个冗长的字符类时，这里有一个关于如何评论的建议：

r'''
# LOTS is for foo
# _ is a special fiz
# OF-LITERAL is for bar
[^LOTS_OF-LITERAL]
'''

score -1 · Accepted Answer

注释在正则表达式中并不总是很好，看起来您的正则表达式引擎正在将连字符解析为正则表达式的一部分。您不能依赖未在此处解析的评论。在实现此代码之前找出这一点是件好事。

python - 详细正则表达式注释中的连字符导致错误

2 回答 2

Related

Reference