unicode 标准中有足够的代码点,您需要 4 个字节来存储它们。这就是 UTF-32 编码的作用。然而,UTF-8 编码通过使用一种称为“可变宽度编码”的东西以某种方式将这些压缩到更小的空间中。
事实上,它设法在一个字节中表示 US-ASCII 的前 127 个字符,这看起来与真正的 ASCII 完全一样,因此您可以将大量 ascii 文本解释为 UTF-8,而无需对其进行任何操作。巧妙的把戏。那么它是怎样工作的?
我将在这里提出并回答我自己的问题,因为我只是做了一些阅读来弄清楚它,我认为它可能会为其他人节省一些时间。另外,如果我有一些错误,也许有人可以纠正我。