7

我在 Mac 上使用 python 2.7.10。表情符号中的标志由一对区域指示符号表示。我想编写一个 python 正则表达式来在一串表情符号标志之间插入空格。

  • 例如,此字符串是两个巴西国旗:

    • u"\U0001F1E7\U0001F1F7\U0001F1E7\U0001F1F7"

    • 这将呈现如下:

我想在任何一对区域指标符号之间插入空格。像这样的东西:

re.sub(re.compile(u"([\U0001F1E6-\U0001F1FF][\U0001F1E6-\U0001F1FF])"),
       r"\1 ", 
       u"\U0001F1E7\U0001F1F7\U0001F1E7\U0001F1F7")

...这将导致:

u"\U0001F1E7\U0001F1F7 \U0001F1E7\U0001F1F7 "

...但是该代码给了我一个错误:

sre_constants.error: bad character range

以下是出现问题的提示(我认为),这表明 \U0001F1E7 在正则表达式中变成了两个“字符”:

re.search(re.compile(u"([\U0001F1E7])"),
          u"\U0001F1E7\U0001F1F7\U0001F1E7\U0001F1F7").group(0)

这导致:

u'\ud83c'

遗憾的是,我对 unicode 的理解太薄弱,无法取得进一步的进展。

4

1 回答 1

11

我相信您在 Windows 或 Mac 中使用 Python 2.7,它具有窄的 16 位 Unicode 构建 - Linux/Glibc 通常具有 32 位完整 unicode,Python 3.5 在所有平台上都具有宽 Unicode。

您看到的是一个代码被拆分为代理对。不幸的是,这也意味着您不能轻易地使用单个字符类来完成这项任务。然而,它仍然是可能的。U+1F1E6()的 UTF-16 表示是 ,U + 1F1FF ()的 UTF-16 表示是。\uD83C\uDDE6\uD83C\uDDFF

我什至根本无法访问此类 Python 构建,但您可以尝试

\uD83C[\uDDE6-\uDDFF]

作为 single 的替代品[\U0001F1E6-\U0001F1FF],因此您的整个正则表达式将是

(\uD83C[\uDDE6-\uDDFF]\uD83C[\uDDE6-\uDDFF])

字符类不起作用的原因是它试图从第一个代理对的后半部分到第二个代理对的前半部分创建一个范围 - 这失败了,因为该范围的开头在字典上大于结束。

但是,这个正则表达式仍然不能在 Linux 上工作,你需要使用原来的,因为 Linux 构建默认使用宽 unicode。


或者,将您的 Windows Python 升级到 3.5 或更高版本。

于 2016-08-23T18:32:00.160 回答