请看以下内容:
/home/kinka/workspace/py/tutorial/tutorial/pipelines.py:33: Warning: Incorrect string
value: '\xF0\x9F\x91\x8A\xF0\x9F...' for column 't_content' at row 1
n = self.cursor.execute(self.sql, (item['topic'], item['url'], item['content']))
string '\xF0\x9F\x91\x8A
,实际上是一个 4 字节的 unicode: u'\U0001f62a'
。mysql 的字符集是 utf-8,但插入 4 字节 unicode 会截断插入的字符串。我google了一下这样的问题,发现5.5.3下的mysql不支持4字节unicode,可惜我的是5.5.224。我不想升级mysql服务器,所以我只想在python中过滤4字节的unicode,我尝试使用正则表达式但失败了。那么,有什么帮助吗?