我有一个包含日语和拉丁字符混合的多字节字符串。我正在尝试将此字符串的一部分复制到单独的内存位置。由于它是一个多字节字符串,因此某些字符使用一个字节,而其他字符使用两个。复制部分字符串时,我不能复制“一半”日文字符。为了能够正确执行此操作,我需要能够确定多字节字符串字符的开始和结束位置。
例如,如果字符串包含需要 [2 字节][2 字节][1 字节] 的 3 个字符,我必须将 2、4 或 5 个字节复制到另一个位置,而不是 3,因为如果我要复制 3 我只会复制第二个字符的一半。
为了弄清楚多字节字符串字符的开始和结束位置,我尝试使用 Windows API 函数 CharNext 和 CharNextExA 但没有运气。当我使用这些函数时,它们一次一个字节地浏览我的字符串,而不是一次一个字符。根据 MSDN,CharNext 应该是CharNext 函数检索指向字符串中下一个字符的指针。.
下面是一些代码来说明这个问题:
#include <windows.h>
#include <stdio.h>
#include <wchar.h>
#include <string.h>
/* string consisting of six "asian" characters */
wchar_t wcsString[] = L"\u9580\u961c\u9640\u963f\u963b\u9644";
int main()
{
// Convert the asian string from wide char to multi-byte.
LPSTR mbString = new char[1000];
WideCharToMultiByte( CP_UTF8, 0, wcsString, -1, mbString, 100, NULL, NULL);
// Count the number of characters in the string.
int characterCount = 0;
LPSTR currentCharacter = mbString;
while (*currentCharacter)
{
characterCount++;
currentCharacter = CharNextExA(CP_UTF8, currentCharacter, 0);
}
}
(请忽略内存泄漏和错误检查失败。)
现在,在上面的示例中,我希望 characterCount 变为 6,因为这是亚洲字符串中的字符数。但相反,characterCount 变为 18,因为 mbString 包含 18 个字符:
門阜陀阿阻附
我不明白它应该如何工作。CharNext 应该如何知道字符串中的“é–€é”是日本字符的编码版本,还是实际上是字符 é – € 和 é?
一些注意事项:
- 我已经阅读了 Joels 的博客文章,了解每个开发人员需要了解的有关 Unicode 的内容。不过,我可能误解了其中的一些内容。
- 如果我只想计算字符,我可以直接计算亚洲字符串中的字符。请记住,我的真正目标是将多字节字符串的一部分复制到单独的位置。单独的位置只支持多字节,不支持宽字符。
- 如果我使用MultiByteToWideChar将mbString的内容转换回宽字符,我得到正确的字符串(门阜陀阿阻附),这表明mbString没有问题。
编辑:显然 CharNext 函数不支持 UTF-8,但微软忘记记录了。我将自己的例程扔/复制粘贴在一起,我不会使用,需要改进。我猜它很容易崩溃。
LPSTR CharMoveNext(LPSTR szString)
{
if (szString == 0 || *szString == 0)
return 0;
if ( (szString[0] & 0x80) == 0x00)
return szString + 1;
else if ( (szString[0] & 0xE0) == 0xC0)
return szString + 2;
else if ( (szString[0] & 0xF0) == 0xE0)
return szString + 3;
else if ( (szString[0] & 0xF8) == 0xF0)
return szString + 4;
else
return szString +1;
}