java - Java byte[] 到/从字符串转换

Question

为什么这个junit测试失败了？

import org.junit.Assert;
import org.junit.Test;

import java.io.UnsupportedEncodingException;

public class TestBytes {
    @Test
    public void testBytes() throws UnsupportedEncodingException {
        byte[] bytes = new byte[]{0, -121, -80, 116, -62};
        String string = new String(bytes, "UTF-8");
        byte[] bytes2 = string.getBytes("UTF-8");
        System.out.print("bytes2: [");
        for (byte b : bytes2) System.out.print(b + ", ");
        System.out.print("]\n");
        Assert.assertArrayEquals(bytes, bytes2);
    }
}

我会假设传入的字节数组等于结果，但不知何故，可能是由于 UTF-8 字符占用两个字节的事实，结果数组在内容和长度上都不同于传入的数组。

请赐教。

score 4 · Accepted Answer

原因是0, -121, -80, 116, -62不是有效的 UTF-8 字节序列。new String(bytes, "UTF-8") 在这种情况下不会抛出任何异常，但结果很难预测。阅读http://en.wikipedia.org/wiki/UTF-8 无效字节序列部分。

score 1 · Accepted Answer

数组字节包含负值，这些值设置了第 8 位 (bit7)，并作为多字节序列转换为 UTF-8。如果您仅使用值在 0..127 范围内的字节，则 bytes2 将与字节相同。要复制给定的字节，可以使用例如 arraycopy 方法：

    byte[] bytes3 = new byte[bytes.length];
    System.arraycopy(bytes, 0, bytes3, 0, bytes.length);

java - Java byte[] 到/从字符串转换

2 回答 2

Related

Reference