431

MySQLutf8mb4utf8charsets 有什么区别?

我已经知道ASCIIUTF-8UTF-16UTF-32编码;但我很想知道编码组与MySQL Serverutf8mb4中定义的其他编码类型有什么区别。

utf8mb4使用而不是有什么特殊的好处/建议utf8吗?

4

5 回答 5

491

UTF-8是一种可变长度编码。对于 UTF-8,这意味着存储一个代码点需要一到四个字节。但是,MySQL 的编码称为“utf8”(“utf8mb3”的别名)每个代码点最多只能存储三个字节。

所以字符集“utf8”/“utf8mb3”不能存储所有的Unicode码位:它只支持0x000到0xFFFF的范围,被称为“基本多语言平面”。另请参阅Unicode 编码比较

这是MySQL 文档必须说的(同一页面的先前版本) :

名为 utf8[/utf8mb3] 的字符集每个字符最多使用三个字节,并且仅包含 BMP 字符。从 MySQL 5.5.3 开始,utf8mb4 字符集每个字符最多使用四个字节,支持补充字符:

  • 对于 BMP 字符,utf8[/utf8mb3] 和 utf8mb4 具有相同的存储特性:相同的代码值、相同的编码、相同的长度。

  • 对于补充字符,utf8[/utf8mb3] 根本无法存储该字符,而 utf8mb4 需要四个字节来存储它。由于 utf8[/utf8mb3] 根本无法存储字符,因此您在 utf8[/utf8mb3] 列中没有任何补充字符,您无需担心在从旧版本升级 utf8[/utf8mb3] 数据时转换字符或丢失数据mysql。

因此,如果您希望您的列支持存储位于 BMP 之外的字符(并且您通常想要),例如emoji,请使用“utf8mb4”。另请参阅实际使用中最常见的非 BMP Unicode 字符是什么?.

于 2015-05-06T10:47:52.247 回答
78

utf8mb4字符集很有用,因为现在我们不仅需要支持存储语言字符,还需要存储符号、新引入的表情符号等。

Mathias Bynens关于如何在 MySQL 数据库中支持完整 Unicode的精彩阅读也可以对此有所了解。

于 2016-10-31T12:28:15.497 回答
68

取自MySQL 8.0 参考手册

  • utf8mb4: Unicode字符集的UTF-8编码,每个字符使用一到四个字节

  • utf8mb3: Unicode字符集的UTF-8编码,每个字符使用一到三个字节

MySQL中,当前 已弃用utf8别名,utf8mb3并将在未来的MySQL版本中删除。届时将成为对 的引用utf8 utf8mb4

所以不管这个别名,你可以有意识地给自己设置一个utf8mb4编码。

为了完成答案,我想在下面添加@WilliamEntriken 的评论(也取自手册):

为避免 的含义产生歧义utf8,请考虑utf8mb4明确指定字符集引用而不是utf8.

于 2018-09-14T18:25:28.113 回答
12
  • utf8是 MySQL 较旧的、有缺陷的 UTF-8 实现,正在被弃用。
  • utf8mb4是他们命名的固定 UTF-8 实现,也是您现在应该使用的。

在他们有缺陷的版本中,只有前 64k 字符平面(基本的多语言平面)中的字符有效,其他字符被视为无效。该平面内的代码点值 - 0 到 65535(其中一些出于特殊原因保留)可以用 UTF-8 中最多 3 个字节的多字节编码表示,并且 MySQL 的早期版本的 UTF-8 任意决定将其设置为限制。这个限制绝不是对 UTF-8 规则的正确解释,因为 UTF-8 从来没有被定义为每个字符最多只允许 3 个字节。事实上,UTF-8 的最早定义将其定义为最多 6 个字节(自修订为 4 个字节)。MySQL 的原始版本总是被任意削弱。

当 MySQL 发布这个时,这个限制的后果并不算太糟糕,因为大多数 Unicode 字符都在第一个平面上。从那时起,越来越多的新定义的字符范围被添加到 Unicode 中,其值超出了第一个平面。Unicode 本身定义了 17 个平面,尽管到目前为止只使用了其中的 7 个。

为了不破坏旧代码做出任何特定的假设,MySQL 保留了破坏的实现并调用了更新的、固定的版本utf8mb4。这导致了一些混淆,名称被误解为好像它是 UTF-8 的某种扩展或 UTF-8 的替代形式,而不是 MySQL 对真正 UTF-8 的实现。

MySQL 的未来版本最终将逐步淘汰旧版本,现在它可以被视为已弃用。在可预见的将来,您需要使用utf8mb4UTF-8 来确保正确的编码。经过足够的时间后,电流utf8将被移除,并且在将来的某个日期utf8会再次上升,这次指的是固定版本,但utf8mb4将继续明确指代固定版本。

于 2020-10-05T13:39:27.877 回答
3

MySQL 在 5.5.3 之后添加了这个 utf8mb4 代码,Mb4 是最多字节 4 的意思,专门设计来兼容四字节 Unicode。幸运的是,UTF8MB4 是 UTF8 的超集,只是不需要将编码转换为 UTF8MB4。当然,为了节省空间,一般使用UTF8就足够了。

原始 UTF-8 格式使用 1 到 6 个字节,最多可以编码 31 个字符。最新的 UTF-8 规范仅使用 1 到 4 个字节,最多可以编码 21 位,仅代表所有 17 个 Unicode 平面。UTF8是Mysql中的一个字符集,最多只支持三个字节的UTF-8字符,是Unicode中基本的多文本平面。

在 Mysql 中保存 4 字节长的 UTF-8 字符,需要使用 UTF8MB4 字符集,但只有 5.5。支持3个版本后(查看版本:选择版本();)。我认为为了获得更好的兼容性,您应该始终使用 UTF8MB4 而不是 UTF8。对于char类型的数据,UTF8MB4比较占空间,根据Mysql官方推荐,使用VARCHAR代替char。

在 MariaDB utf8mb4 作为默认 CHARSET 时,它没有在服务器配置中明确设置,因此使用 COLLATE utf8mb4_unicode_ci。

参考 MariaDB CHARSET & COLLATE 点击

CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
于 2020-07-22T17:53:05.153 回答