3

我有一个站点,它接受来自用户的基于表单的输入并存储到 mysql(i) 数据库中。99% 的用户来自美国。

如果用户在移动设备上并认为在其中一个表单字段中使用表情符号会很有趣,则在尝试 UPDATE 或 INSERT 时生成的 SQL 会导致失败。这是因为表情符号在 utf-8 之外,因此 UX 和 DB 之间的编码不匹配。我相信我理解潜在的问题。

我在 mysql 5.5 上,所以我实际上可以支持 utf8mb4 字符集——但我需要一段时间才能解决这个问题。

同时,这样做是否可以/安全(在 PHP 中):

$sql = "INSERT INTO my_table ... *long insert statement across two dozen rows*";
$sql = utf8_decode($sql);
$db->sql_query($sql);

那么 - 只需将整个 SQL 语句强制为 utf-8?我意识到表情符号字符和其他一些字符可能会转换为“?” - 但只要语句本身没有损坏或者我不会丢失用户的正常文本输入,我就可以接受。

在我可以将表的模式转换为使用 utf8mb4 之前,这个想法作为临时修复有什么问题吗?

编辑:从数据库返回的错误如下所示:

"Incorrect string value: '\xF0\x9F\x99\x8A...' for column..."
4

1 回答 1

3

一些事实:

  • 许多表情符号在 Unicode 中的 BMP(基本多语言平面)之上,即在代码点 U+FFFF 之上
  • MySQL 的utf8字符集只能表示 BMP,它实际上不是完整的 UTF-8 ( yay MySQL )
  • MySQL 拥有完整的 Unicode 支持utf8mb4
  • 尝试在字符集列中存储 BMP 上方的字符时应该没有实际错误utf8,MySQL 将简单地丢弃不受支持的字符(是的,静默数据损坏
  • utf8_decode 不会“强制所有内容为 UTF-8”,而是将字符串从 UTF-8 编码转换为 ISO-8859-1(“Latin-1”)编码;这将丢弃更多字符而不仅仅是表情符号

所以在我看来,如果你在某个时候抛出了一个实际的错误,那么你还有其他一些潜在的问题。也许您认为您正在使用 UTF-8 与您的数据库对话,而实际上并非如此。您需要通过mysqli_set_charset.

“过滤掉”您的数据库不支持的字符应该已经发生,MySQL 将简单地丢弃这些字符。如果您想在 PHP 中手动执行此操作,您可以这样做以过滤掉 U+FFFF 以上的所有字符:

$string = preg_replace_callback('/./u', function (array $m) {
    return strlen($m[0]) > 4 ? null : $m[0];
}, $string);

总体:支持utf8mb4大约需要两分钟。您只需将表/列字符集设置为utf8mb4并对 mysqli 连接执行相同操作。如果您随后将实际的 UTF-8 数据从您的 PHP 应用程序发送到您的数据库,那么您将可以很好地存储表情符号。

于 2015-01-05T01:15:47.003 回答