我很惊讶我无法在正则表达式中匹配德语变音符号。我尝试了几种方法,大多数涉及设置语言环境,但到目前为止无济于事。
locale.setlocale(locale.LC_ALL, 'de_DE.UTF-8')
re.findall(r'\w+', 'abc def g\xfci jkl', re.L)
re.findall(r'\w+', 'abc def g\xc3\xbci jkl', re.L)
re.findall(r'\w+', 'abc def güi jkl', re.L)
re.findall(r'\w+', u'abc def güi jkl', re.L)
这些版本都没有正确匹配 umlaut-u (ü) 和\w+
. 同样删除re.L
标志或在模式字符串前面加上u
(使其成为unicode)对我没有帮助。
有任何想法吗?如何re.L
正确使用标志?