c - 如何导航 UTF-8 文本文件

Question

我有一个 UTF-8 文本文件，我需要在 C 中导航。我需要将此文件拆分为单独的较小文件（即把它切成两半）。发生这种情况时，它有时会将多字节字符拆分为两个不同的文件。当一个笨拙的文本编辑器去读取包含文本后半部分的文件时，它会读取剪切字符的后半部分并变得混乱，因此无法正确显示其余文本。如果我逐字节读取，我如何判断我是在字符的开头还是在中间？非 ascii 兼容的 UTF-8 字符都以设置为 1 的前导位开始，但有些是两个字节，有些是三个字节。

编辑：没关系，我刚刚发现第一个字节包含字符长的前导 1 的数量。IE 一个三字节字符是 1110xxxx xxxxxxxx xxxxxxxx。

score 3 · Accepted Answer

3

if ((*s & 0xc0) == 0x80) /* You are in the middle of */;

于 2013-06-17T17:25:44.697 回答

score 2 · Accepted Answer

UTF-8 字符使用 1 到 4 个字节表示。

检查一个字节，如果你有这个二进制模式：

10xxxxxx

你在一个多字节的中间。你应该继续下一个主角。

如果你有这个：

0xxxxxxx

你有一个 1 字节的字符。

 110xxxxx

是 2 字节字符的前导字节

 1110xxxx

是 3 字节字符的前导字节

和

 11110xxx

是 4 字节字符的前导字节

score 1 · Accepted Answer

所有 UTF-8 字符均由前导字节和零个或多个连续字节组成。所有连续字节都是二进制形式的“10xxxxxx”。所以所有前导字节都是以下两种形式之一：“0xxxxxxx”或“11xxxxxx”。

c - 如何导航 UTF-8 文本文件

3 回答 3

Related

Reference