python - Python 和带有 Unicode 的正则表达式

Question

我需要从字符串 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ' 中删除一些 Unicode 符号

我知道它们肯定存在于此。我试过：

re.sub('([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)', '', 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ')

但它不起作用。字符串保持不变。我究竟做错了什么？

score 110 · Accepted Answer

您使用的是 python 2.x 还是 3.0？

如果您使用的是 2.x，请尝试使用 'u' 将正则表达式字符串设为 unicode-escape 字符串。由于它是正则表达式，因此最好将正则表达式字符串设为原始字符串，并使用“r”。此外，将整个模式放在括号中是多余的。

re.sub(ur'[\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+', '', ...)

http://docs.python.org/tutorial/introduction.html#unicode-strings

编辑：

对 unicode 正则表达式使用 re.UNICODE/re.U/(?u) 标志也是一种好习惯，但它只影响像 \w 或 \b 这样的字符类别名，这种模式不使用任何别名，因此不会受到影响。

score 76 · Accepted Answer

使用Unicode字符串。使用re.UNICODE标志。

>>> myre = re.compile(ur'[\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+', 
                      re.UNICODE)
>>> myre
<_sre.SRE_Pattern object at 0xb20b378>
>>> mystr = u'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ'
>>> result = myre.sub('', mystr)
>>> len(mystr), len(result)
(38, 22)
>>> print result
بسم الله الرحمن الرحيم

阅读Joel Spolsky的文章《每个软件开发人员绝对、肯定必须了解 Unicode 和字符集的绝对最小值》（没有任何借口！）

python - Python 和带有 Unicode 的正则表达式

2 回答 2

Related

Reference