同一个 Unicode(标准化)表有不同的编码。例如,对于 UTF-8 编码A
,对应 0x0041
于 UTF-16 编码,A
则表示为 0xfeff0041
.
从这篇精彩的文章中我了解到,当我使用 C++ 为 Windows 平台编程并处理 Unicode 时,我应该知道它以 2 个字节表示。但它没有说明任何关于编码的内容。(即使它说 x86 CPU 是 little-endian,所以我知道这两个字节是如何存储在内存中的。)但我也应该知道 Unicode 的编码,以便我有关于符号如何存储在内存中的完整信息。C++/Windows 程序员有固定的 Unicode 编码吗?