0

我正在阅读某人的代码,我碰巧看到代码如下。

根据评论,这个功能是Convert a UCS character to an UTF-8 string. 但是什么是ucs字符,ucs转unicode的规则是什么,在哪里可以找到文档呢?

/*
 * Convert a UCS character to an UTF-8 string
 *
 * Returns the string length of the result
 */
size_t
tUcs2Utf8(ULONG ulChar, char *szResult, size_t tMaxResultLen)
{
    if (szResult == NULL || tMaxResultLen == 0) {
        return 0;
    }

    if (ulChar < 0x80 && tMaxResultLen >= 2) {
        szResult[0] = (char)ulChar;
        szResult[1] = '\0';
        return 1;
    }
    if (ulChar < 0x800 && tMaxResultLen >= 3) {
        szResult[0] = (char)(0xc0 | ulChar >> 6);
        szResult[1] = (char)(0x80 | (ulChar & 0x3f));
        szResult[2] = '\0';
        return 2;
    }
    if (ulChar < 0x10000 && tMaxResultLen >= 4) {
        szResult[0] = (char)(0xe0 | ulChar >> 12);
        szResult[1] = (char)(0x80 | (ulChar >> 6 & 0x3f));
        szResult[2] = (char)(0x80 | (ulChar & 0x3f));
        szResult[3] = '\0';
        return 3;
    }
    if (ulChar < 0x200000 && tMaxResultLen >= 5) {
        szResult[0] = (char)(0xf0 | ulChar >> 18);
        szResult[1] = (char)(0x80 | (ulChar >> 12 & 0x3f));
        szResult[2] = (char)(0x80 | (ulChar >> 6 & 0x3f));
        szResult[3] = (char)(0x80 | (ulChar & 0x3f));
        szResult[4] = '\0';
        return 4;
    }
    szResult[0] = '\0';
    return 0;
} /* end of tUcs2Utf8 */
4

1 回答 1

0

通用字符集是一个ISO 标准。它定义了与 Unicode 相同的字符,因此无需进行字符转换。每个版本的 UCS 本质上都是某个版本的 Unicode 标准的一个小子集。新字符首先添加到 Unicode 中,并且每隔一段时间,UCS 就会与 Unicode 同步。Unicode 标准的附录 C包含一个表格,显示了不同版本之间的关系。

另请注意,您发布的代码使用非标准上限 0x200000。这应该更改为 0x110000。

于 2016-01-18T14:57:14.383 回答