我有以下输入:
Hi! How are you? <script>//NOT EVIL!</script>
Wassup? :P
LOOOL!!! :D :D :D
然后通过表情库运行,它变成了这样:
Hi! How are you? <script>//NOT EVIL!</script>
Wassup? <img class="smiley" alt="" title="tongue, :P" src="ui/emoticons/15.gif">
LOOOL!!! <img class="smiley" alt="" title="big grin, :D" src="ui/emoticons/5.gif"> <img class="smiley" alt="" title="big grin, :P" src="ui/emoticons/5.gif"> <img class="smiley" alt="" title="big grin, :P" src="ui/emoticons/5.gif">
我有一个转义 HTML 实体以防止 XSS 的功能。因此,在第一行的原始输入上运行它会产生:
Hi! How are you? <script>//NOT EVIL!</script>
现在我需要转义所有输入,但同时我需要将表情符号保留在初始状态。因此,当有<:-P
表情符号时,它会保持不变,不会变成<:-P
。
我正在考虑对表情符号进行正则表达式拆分。然后单独处理每个部分,然后将字符串连接在一起,但我不确定 Regex 是否容易被绕过?我知道格式永远是这样的:
[<img class="smiley" alt="]
[empty string]
[" title="]
[one of the values from a big list]
[, ]
[another value from the list (may be matching original emoticon)]
[" src="ui/emoticons/]
[integer from Y to X]
[.gif">]
使用列表可能会很慢,因为我需要在可能有 20-30-40 个表情符号的文本上运行该正则表达式。另外,可能需要处理 5-10-15 条短信。什么可能是一个优雅的解决方案?我准备为此使用第三方库或 jQuery。PHP 预处理也是可能的。