3

我正在用 Java 创建一个简单的应用程序,它允许我读取文本文件。我有一个字节数组,它被包装到 ByteBuffer 中:

 FileInputStream inputStream = new FileInputStream(name);
 FileChannel channel = inputStream.getChannel();
 byte[] bArray = new byte[8192];
 ByteBuffer byteBuffer = ByteBuffer.wrap(bArray);
 int read;

然后我使用一个while循环来遍历文本文件:

while ( (read=channel.read(byteBuffer)) != -1 )
{
    for ( int i=0; i<read; i++ )
        //my code
    byteBuffer.clear( );
}

我的问题是在这种情况下如何读取 Unicode 字符。Unicode 字符由 2 个字节(16 位)组成,所以我认为 bArray[i] 包含第一个(更高的)8 位,随后的 8 位是该字符的第二部分。因此,例如,如果我需要找出这个字符:“#”当前是否在索引 i 和 i + 1 上,我可以这样做吗?(二进制表示中的“#”:0010 0011):

if (bArray[i] == (byte)10 && bArray[i+1] == (byte) 11)

感谢您的回复

4

1 回答 1

6

简单的答案是您不应将文本数据视为字节流。具体来说,这意味着:不要使用ByteBuffer.

使用InputStreamReader,它知道如何使用给定的编码来解释字节序列。

于 2012-12-11T20:21:03.250 回答