2

我正在尝试将 UTF-16 字符串转换为 utf-8 并撞到一堵小墙。输出字符串包含字符但有空格!?输入是hi\0and 如果我查看输出,它会说h\0i\0而不是hi\0.

你看到这里的问题了吗?非常感谢!

size_t len16 = 3 * sizeof(wchar_t);
size_t len8 = 7;
wchar_t utf16[3] = { 0x0068, 0x0069, 0x0000 }, *_utf16 = utf16;
char utf8[7], *_utf8 = utf8;

iconv_t utf16_to_utf8 = iconv_open("UTF-8", "UTF-16LE");
size_t result = iconv(utf16_to_utf8, (char **)&_utf16, &len16, &_utf8, &len8);

printf("%d - %s\n", (int)result, utf8);

iconv_close(utf16_to_utf8);
4

1 回答 1

4

的输入数据iconv始终是不透明的字节流。读取 UTF-16 时,iconv期望输入数据由两字节代码单元组成。因此,如果要提供硬编码的输入数据,则需要使用两字节宽的整数类型。

在 C++11 和 C11 中,这应该是char16_t,但您也可以使用uint16_t

uint16_t data[] = { 0x68, 0x69, 0 };

char const * p = (char const *)data;

为了迂腐,一般来说没有什么说uint16_t有两个字节。但是,iconv它是一个 Posix 库,并且 Posix 要求它CHAR_BIT == 8,所以它在 Posix 上是正确的。

(另请注意,您拼写文字值的方式与您使用该值初始化的类型的宽度无关0x68,因此,0x0068或之间没有区别0x00068。更有趣的是新的 Unicode 字符文字\u\U, 但是那是一个完全不同的故事。)

于 2013-05-24T12:30:58.327 回答