2

我有一个 UTF-8 文本文件,我需要在 C 中导航。我需要将此文件拆分为单独的较小文件(即把它切成两半)。发生这种情况时,它有时会将多字节字符拆分为两个不同的文件。当一个笨拙的文本编辑器去读取包含文本后半部分的文件时,它会读取剪切字符的后半部分并变得混乱,因此无法正确显示其余文本。如果我逐字节读取,我如何判断我是在字符的开头还是在中间?非 ascii 兼容的 UTF-8 字符都以设置为 1 的前导位开始,但有些是两个字节,有些是三个字节。

编辑:没关系,我刚刚发现第一个字节包含字符长的前导 1 的数量。IE 一个三字节字符是 1110xxxx xxxxxxxx xxxxxxxx。

4

3 回答 3

3
if ((*s & 0xc0) == 0x80) /* You are in the middle of */;
于 2013-06-17T17:25:44.697 回答
2

UTF-8 字符使用 1 到 4 个字节表示。

检查一个字节,如果你有这个二进制模式:

10xxxxxx

你在一个多字节的中间。你应该继续下一个主角。

如果你有这个:

0xxxxxxx

你有一个 1 字节的字符。

 110xxxxx

是 2 字节字符的前导字节

 1110xxxx

是 3 字节字符的前导字节

 11110xxx

是 4 字节字符的前导字节

于 2013-06-17T16:30:36.137 回答
1

所有 UTF-8 字符均由前导字节和零个或多个连续字节组成。所有连续字节都是二进制形式的“10xxxxxx”。所以所有前导字节都是以下两种形式之一:“0xxxxxxx”或“11xxxxxx”。

于 2013-06-17T16:28:58.853 回答