我正在尝试读取编码为 UTF-16 文件的(日语)文件。
当我使用带有“UTF-16”字符集的 InputStreamReader 读取它时,文件被正确读取:
try {
InputStreamReader read = new InputStreamReader(new FileInputStream("JapanTest.txt"), "UTF-16");
BufferedReader in = new BufferedReader(read);
String str;
while((str=in.readLine())!=null){
System.out.println(str);
}
in.close();
}catch (Exception e){
System.out.println(e);
}
但是,当我使用文件通道并从字节数组中读取时,字符串并不总是正确转换:
File f = new File("JapanTest.txt");
fis = new FileInputStream(f);
channel = fis.getChannel();
MappedByteBuffer buffer = channel.map( FileChannel.MapMode.READ_ONLY, 0L, channel.size());
buffer.position(0);
int get = Math.min(buffer.remaining(), 1024);
byte[] barray = new byte[1024];
buffer.get(barray, 0, get);
CharSet charSet = Charset.forName("UTF-16");
//endOfLinePos is a calculated value and defines the number of bytes to read
rowString = new String(barray, 0, endOfLinePos, charSet);
System.out.println(rowString);
我发现的问题是,如果 MappedByteBuffer 位于位置 0,我只能正确读取字符。如果我增加 MappedByteBuffer 的位置,然后将多个字节读入字节数组,然后使用转换为字符串字符集 UTF-16,则字节未正确转换。如果文件以 UTF-8 编码,我还没有遇到过这个问题,那么这只是 UTF-16 的问题吗?
更多详细信息:我需要能够从文件通道中读取任何行,因此我构建了一个行结束字节位置列表,然后使用这些位置来获取任何给定行的字节,然后转换它们到一个字符串。