正则表达式\w
似乎忽略了我的 Unicode 字符串。我创建了以下函数:
extras.py
# -*- coding: utf-8 -*-
def test(word):
print re.sub(r'[^\w]+', '', word, re.U)
并从 django shell:
import extras
extras.test(u'שלום')
在本例中,输出是一个空字符串,而它应该与输入相同。
正则表达式的目的是只保留字母数字字符,但它不起作用。但它适用于 ASCII。
可能是什么问题?