2

我有 UTF-8 编码的文本文件。我可以按字符阅读。每个 char 可以是一个字节或多字节。我怎么知道在哪里读取了一个字节,以及读取了多于一个字节?

4

1 回答 1

0

在读取chars 时计算字节数。

对于每个char c

if(c<128)
  bytesCount++;
else if (c<2048)
  bytesCount+=2;
else
  bytesCount+=3;

另见编码定义维基百科 URF8

于 2013-02-08T23:35:19.280 回答