8

我正在尝试解析传入的字符串以确定它是否包含任何非表情符号。

我已经阅读了Mathias 的这篇很棒的文章,并利用本机punycode进行编码/解码和regenerate生成正则表达式。我还使用EmojiData来获取我的表情符号字典。

话虽如此,某些表情符号仍然是讨厌的小虫子,拒绝匹配。对于某些表情符号,我继续获得一对代码点。

// Example of a single code point:
console.log(punycode.ucs2.decode(''));
>> [ 128169 ]

// Example of a paired code point:
console.log(punycode.ucs2.decode('⌛️'));
>> [ 8987, 65039 ]

Mathias 在他的文章中谈到了这一点(并给出了一个解决此问题的 punycode 示例),但即使使用他的示例,我也得到了不正确的响应:

function countSymbols(string) {
  return punycode.ucs2.decode(string).length;
}
console.log(countSymbols(''));
>> 1
console.log(countSymbols('⌛️'));
>> 2

检测字符串是否包含所有表情符号的最佳方法是什么?这是为了概念验证,因此解决方案可以根据需要使用蛮力。

- - 更新 - -

上面我讨厌的表情符号的更多上下文。

这些在视觉上是相同的,但实际上是不同的 unicode 值(第二个来自上面的示例):

⌛ // \u231b

⌛️ // \u231b\ufe0f

第一个效果很好,第二个不行。不幸的是,第二个版本是 iOS 似乎使用的(如果你从 iMessage 复制和粘贴,你会得到第二个,当接收到来自 Twilio 的文本时,同样的事情)。

4

2 回答 2

4

U+FE0F不是组合标记,它是控制字形渲染的变体序列(请参阅此答案)。删除此类序列可能会改变字符的外观,例如:U+231B+ U+FE0E(⌛︎)。

此外,表情符号序列可以由多个代码点组成。例如,U+0032(2) 本身不是表情符号,但U+0032+ U+20E3(2⃣) 或U+0032+ U+20E3+ U+FE0F(2⃣️) 是 - 但U+0041+ U+20E3(A⃣) 不是。完整的表情符号序列列表由 Unicode 联盟在emoji-data.txtemoji-data-js文件中维护(该库似乎有此信息)。

要检查字符串是否包含表情符号字符,您需要测试是否有任何单个字符在 中emoji-data.txt,或者为其中的序列启动子字符串。

于 2015-09-24T23:26:41.480 回答
0

如果假设您知道您希望遇到哪些非表情符号字符,则可以通过它们的 toArray 或拆分模块使用一点 lodash 魔法,这些模块可以识别表情符号。例如,如果您想查看一个字符串是否包含字母数字字符,您可以编写如下函数:

function containsAlphaNumeric(string){
 return _(string).toArray().filter(function(char){
    return char.match(/[a-zA-Z0-9]/);
 }).value().length > 0 ? true : false;
}
于 2017-09-06T22:44:41.460 回答