4

如何解析大于的字符的 unicode 'string' \uFFFF

尝试过reregex似乎无法正确匹配大于 2 个十六进制值的 unicode 字符。

采用任何 unicode 字符串(例如,编码为 的推文文本utf-8

emotes = regex.findall('[\u263A\u263B\u062A\u32E1]',tweet_json_obj['text'])
if emotes: print "Happy:{0}".format(len(emotes))

输出是文本中包含的笑脸数量,效果很好!

但如果我尝试匹配 unicode 字符的表情符号集: http ://www.fileformat.info/info/unicode/block/emoticons/index.htm

emotes = regex.findall('[\u01F600-\u01F64F]',tweet_json_obj['text'])
if emotes: print "Emoticon:{0}".format(len(emotes))

输出是字符串中所有字符的(数字)匹配,减去空格。正则表达式如何匹配推文中的每个字符,或者至少看起来像 string.printable?

大多数数据集的预期结果为 0,因为我不希望人们插入这些表情符号,但它们可能......所以我想检查它们是否存在。我的正则表达式不正确吗?

4

1 回答 1

4

BMP之外的代码点使用\Uxxxxxxxx(所以大写U和 8 个十六进制字符)。您正在使用\uxxxx,它只需要四个十六进制字符,00它不是 unicode 代码点的一部分:

>>> len(u'\u01f600')
3
>>> len(u'\U0001f600')
1
>>> u'\u01f600'[0]
'\u01f6'
>>> u'\u01f600'[1:]
'00'

你需要在unicode这里使用一个模式:

u'[\U0001F600-\U0001F64F]'

演示:

>>> import re
>>> re.search(u'[\U0001F600-\U0001F64F]', u'\U0001F600')
<_sre.SRE_Match object at 0xb73ead08>

您需要使用 UCS4 Python 构建,否则非 BMP 代码点是使用 UTF16 代理对实现的,这与正则表达式效果不佳。

如果len(u'\U0001f600')返回 2,那么您正在使用窄 UCS2 构建,或者您可以查看sys.maxunicode; 宽版本返回 1114111,窄版本 65535。

在 UCS2 系统上,对于这种特定情况,您也可以将 UTF16 代理项与表达式匹配:

ur'\ud83d[\ude00-\ude4f]'

这与组成相同范围的 UTF-16 代理对匹配[\U0001F600-\U0001F64F],但在窄构建上:

>>> import sys
>>> sys.maxunicode
65535
>>> import re
>>> re.search(u'\ud83d[\ude00-\ude4f]', u'\U0001F600')
<_sre.SRE_Match object at 0x105e9f5e0>
于 2013-11-13T23:17:35.417 回答