您找到的代码 ( transcodeField
) 不会将 aString
从一种编码转换为另一种编码,因为 aString
没有编码¹。它将字节从一种编码转换为另一种编码。该方法仅在您的用例满足 2 个条件时才有用:
- 您的输入数据是一种编码中的字节
- 您的输出数据需要是另一种编码的字节
在这种情况下,它很简单:
byte[] out = transcodeField(inbytes, Charset.forName(inEnc), Charset.forName(outEnc));
如果输入数据包含无法在输出编码中表示的字符(例如将复数转换UTF8
为ASCII
),这些字符将被?
替换符号 替换,并且数据将被破坏。
然而,很多人问“如何将字符串从一种编码转换为另一种编码”,很多人用以下代码片段回答:
String s = new String(source.getBytes(inputEncoding), outputEncoding);
这完全是公牛****。该getBytes(String encoding)
方法返回一个字节数组,其中包含以指定编码编码的字符(如果可能,再次将无效字符转换为?
)。带有第二个参数的 String 构造函数从字节数组中创建一个新的 String,其中字节采用指定的编码。现在,由于您只是用来source.getBytes(inputEncoding)
获取这些字节,因此它们没有被编码outputEncoding
(除非编码使用相同的值,这对于“普通”字符(如 )很常见abcd
,但与更复杂的重音字符(如重音字符)不同éêäöñ
)。
那么这是什么意思?这意味着当您拥有 Java 时String
,一切都很好。Strings
是 unicode,这意味着您的所有字符都是安全的。当您需要将其转换String
为字节时,问题就出现了,这意味着您需要决定编码。选择与 unicode 兼容的编码(例如UTF8
等UTF16
)非常棒。这意味着即使您的字符串包含各种奇怪的字符,您的字符仍然是安全的。如果您选择不同的编码(US-ASCII
支持最少),您的 String 必须只包含编码支持的字符,否则会导致字节损坏。
现在终于有一些好的和坏的用法的例子了。
String myString = "Feng shui in chinese is 風水";
byte[] bytes1 = myString.getBytes("UTF-8"); // Bytes correct
byte[] bytes2 = myString.getBytes("US-ASCII"); // Last 2 characters are now corrupted (converted to question marks)
String nordic = "Här är några merkkejä";
byte[] bytes3 = nordic.getBytes("UTF-8"); // Bytes correct, "weird" chars take 2 bytes each
byte[] bytes4 = nordic.getBytes("ISO-8859-1"); // Bytes correct, "weird" chars take 1 byte each
String broken = new String(nordic.getBytes("UTF-8"), "ISO-8859-1"); // Contains now "Här är några merkkejä"
最后一个例子表明,尽管两种编码都支持北欧字符,但它们使用不同的字节来表示它们,并且在解码结果时使用了错误的编码在Mojibake中。因此,不存在“将字符串从一种编码转换为另一种编码”这样的事情,并且您永远不应该使用损坏的示例。
另请注意,您应该始终指定使用的编码(同时使用getBytes()
和new String()
),因为您不能相信默认编码始终是您想要的编码。
作为最后一个问题,Charset 和 Encoding不是一回事,但它们非常相关。
¹ 从技术上讲,字符串在 JVM 内部存储的方式是使用 UTF-16 编码(直到 Java 8),以及从 Java 9 开始的变量编码,但开发人员不需要关心这一点。
笔记
可能有一个损坏的字符串,并且能够通过摆弄编码来修复它,这可能是这种“将字符串转换为其他编码”误解的根源。
// Input comes from network/file/other place and we have misconfigured the encoding
String input = "Här är några merkkejä"; // UTF-8 bytes, interpreted wrongly as ISO-8859-1 compatible
byte[] bytes = input.getBytes("ISO-8859-1"); // Get each char as single byte
String asUtf8 = new String(bytes, "UTF-8"); // Recreate String as UTF-8
如果 中没有字符损坏input
,则字符串现在将被“修复”。但是正确的方法是在阅读时使用正确的编码input
,而不是事后修复。特别是如果它有可能被损坏。