java - 如何检查字符串是否可在某些编码中编码？

Question

以下测试在转换后的 Latin1 上失败，因为非法字符被替换为值为 63（问号）的字节。问题是这些字符应该更好地引起一些异常......

  @Test
  public void testEncoding() throws UnsupportedEncodingException {
    final String czech = "Řízeček a šampáňo a žízeň";
    // okay
    final byte[] bytesInLatin2 = czech.getBytes("ISO8859-2");
    // different bytes, but okay
    final byte[] bytesInWin1250 = czech.getBytes("Windows-1250");
    // different bytes, but okay
    final byte[] bytesInUtf8 = czech.getBytes("UTF-8");
    // nonsense; Ř,č,... are not in Latin1 code set!!!
    final byte[] bytesInLatin1 = czech.getBytes("ISO8859-1");

    System.out.println(Arrays.toString(bytesInLatin2));
    System.out.println(Arrays.toString(bytesInWin1250));
    System.out.println(Arrays.toString(bytesInUtf8));
    System.out.println(Arrays.toString(bytesInLatin1));
    System.out.flush();

    final String latin2 = new String(bytesInLatin2, "ISO8859-2");
    final String win1250 = new String(bytesInWin1250, "Windows-1250");
    final String utf8 = new String(bytesInUtf8, "UTF-8");
    final String latin1 = new String(bytesInLatin1, "ISO8859-1");

    Assert.assertEquals("latin2", czech, latin2);
    Assert.assertEquals("win1250", czech, win1250);
    Assert.assertEquals("utf8", czech, utf8);
    Assert.assertEquals("latin1", czech, latin1); // this test will fail!
  }

由于 Java 的这种行为，在很多情况下数据最终被破坏。如果字符串可以通过某种编码进行编码，是否有任何库可用于验证字符串？

score 10 · Accepted Answer

我怀疑你正在寻找CharsetEncoder.canEncode(CharSequence).

Charset latin2 = Charset.forName("ISO8859-2");
boolean validInLatin2 = latin2.newEncoder().canEncode(czech);
...

score 1 · Accepted Answer

作为 Jon Skeet 建议的替代方案，您还可以使用CharsetEncoder类直接进行编码（使用encode方法），但首先调用onMalformedInput和onUnmappableCharacter方法来指定编码器在遇到错误输入时应该做什么。

这样大多数时候你只是在做一个简单的编码调用，但如果出现任何问题，你会得到一个异常。

java - 如何检查字符串是否可在某些编码中编码？

2 回答 2

Related

Reference