python - python 正则表达式无法匹配特定的 Unicode > 2 十六进制值

Question

如何解析大于的字符的 unicode 'string' \uFFFF？

尝试过re但regex似乎无法正确匹配大于 2 个十六进制值的 unicode 字符。

采用任何 unicode 字符串（例如，编码为的推文文本utf-8）

emotes = regex.findall('[\u263A\u263B\u062A\u32E1]',tweet_json_obj['text'])
if emotes: print "Happy:{0}".format(len(emotes))

输出是文本中包含的笑脸数量，效果很好！

emotes = regex.findall('[\u01F600-\u01F64F]',tweet_json_obj['text'])
if emotes: print "Emoticon:{0}".format(len(emotes))

输出是字符串中所有字符的（数字）匹配，减去空格。正则表达式如何匹配推文中的每个字符，或者至少看起来像 string.printable？

大多数数据集的预期结果为 0，因为我不希望人们插入这些表情符号，但它们可能......所以我想检查它们是否存在。我的正则表达式不正确吗？

score 4 · Accepted Answer

BMP之外的代码点使用\Uxxxxxxxx（所以大写U和 8 个十六进制字符）。您正在使用\uxxxx，它只需要四个十六进制字符，00它不是 unicode 代码点的一部分：

>>> len(u'\u01f600')
3
>>> len(u'\U0001f600')
1
>>> u'\u01f600'[0]
'\u01f6'
>>> u'\u01f600'[1:]
'00'

你需要在unicode这里使用一个模式：

u'[\U0001F600-\U0001F64F]'

演示：

>>> import re
>>> re.search(u'[\U0001F600-\U0001F64F]', u'\U0001F600')
<_sre.SRE_Match object at 0xb73ead08>

您需要使用 UCS4 Python 构建，否则非 BMP 代码点是使用 UTF16 代理对实现的，这与正则表达式效果不佳。

如果len(u'\U0001f600')返回 2，那么您正在使用窄 UCS2 构建，或者您可以查看sys.maxunicode; 宽版本返回 1114111，窄版本 65535。

在 UCS2 系统上，对于这种特定情况，您也可以将 UTF16 代理项与表达式匹配：

ur'\ud83d[\ude00-\ude4f]'

这与组成相同范围的 UTF-16 代理对匹配[\U0001F600-\U0001F64F]，但在窄构建上：

>>> import sys
>>> sys.maxunicode
65535
>>> import re
>>> re.search(u'\ud83d[\ude00-\ude4f]', u'\U0001F600')
<_sre.SRE_Match object at 0x105e9f5e0>

1 回答 1