unicode - 为什么我的 Unicode 文本文件的 hexdump 与我手动输入的字节序列不同？

Question

为什么以下会导致 hexdump 中出现如此不同的字节序列？

$ echo -e "\u0f67\u0fb9\u0fa8\u0fb3\u0fba\u0fbc\u0fbb\u0f83\u0f0b" > uni
$ hexdump uni
0000000 bde0 e0a7 b9be bee0 e0a8 b3be bee0 e0ba
0000010 bcbe bee0 e0bb 83be bce0 0a8b
000001c

$ locale
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE=C
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=

区域设置正确设置为：en_US.UTF-8，实际 unicode 输出正确：ཧྐྵྨླྺྼྻྃ་</p>

score 1 · Accepted Answer

我的误解源于认为我回显的字符是 utf8，而实际上它们是 utf16。查找第一个字符时，utf8 显示为

 e0 bd a7

应该是大端。因此，要更改字节序，可以使用 -C 参数运行 hexdump。

unicode - 为什么我的 Unicode 文本文件的 hexdump 与我手动输入的字节序列不同？

1 回答 1

Related

Reference