java - 编码和解码后字符串不同

Question

我偶然发现了编码/解码字符串的奇怪行为。看一个例子：

@Test
public void testEncoding() {
    String str = "\uDD71"; // {56689}
    byte[] utf16 = str.getBytes(StandardCharsets.UTF_16); // {-2, -1, -1, -3}
    String utf16String = new String(utf16, StandardCharsets.UTF_16); // {65533}
    assertEquals(str, utf16String);
}

我会假设这个测试会通过，但事实并非如此。有人可以解释为什么编码和解码的字符串不等于原始字符串吗？

score 4 · Accepted Answer

U+DD71不是有效的代码点，因为 U+D800..U+DFFF 由 Unicode 保留，以免与 UTF-16 混淆。因此，这些代码点永远不应显示为有效的字符数据。从 Unicode 标准：

孤立的代理代码点没有解释；因此，没有为此范围提供字符代码图表或名称列表。

但是，这有效：

@Test
public void testEncoding() {
    String str = "\u0040";
    byte[] utf16 = str.getBytes(StandardCharsets.UTF_16);
    String utf16String = new String(utf16, StandardCharsets.UTF_16);
    assertEquals(str, utf16String);
}

因此，这不是您的代码有问题，而是您尝试使用无效的代码点。

java - 编码和解码后字符串不同

1 回答 1

Related

Reference