3

我的问题如下。我正在阅读一个 XML 文件,其文本节点部分包含 UTF-8 版本的打开和关闭双引号。文本被提取,缩短为 3999 字节并放入新的 XML 格式,然后保存为文件。

虽然 Notepad++ 在输入文件中正确显示了这两个符号,但输出文件包含无效的 utf-8 字符,甚至 Notepad++ 也无法显示。

开头的双引号打印正确,但结尾的双引号被毁容。

使用十六进制编辑器,我发现代码单元以某种方式从

E2 80 9D

在输入文件中

E2 80 3F

在输出文件中。我正在使用 sax-parser 进行 xml 解析。

是否有任何已知的错误可能导致这种行为?

4

3 回答 3

1

E2 80 9D 是 UTF-8 的有效字节序列,给出'”' = \u201d'. 您可以看到这一点,因为所有高位都已设置。这是 UTF 值得称赞的安全属性,因此不会错误地在这样的序列中找到 ASCII,例如 '/'。

在第二个序列中,3F ('?') 在字节中没有设置高位,所以是错误的。这意味着读数出错(问号)左右。就像转换两次,替换。特别是 9D 在扩展的 Windows Latin-1 aka Cp1252 (80 - 9F) 中。

于 2013-01-17T12:47:57.560 回答
1

不是一个已知的错误,而是在读取或写入文件时忽略编码的常见错误 - 导致使用的平台默认编码在这种情况下为 Windows-1252。

最初读取文件时,应指定 UTF-8 解码,写入新文件时,应指定 UTF-8 编码。如果您发布您的实施,我可以将其纠正到位。

如何重现:

byte[] quoteutf8 = {(byte)0xE2, (byte)0x80, (byte)0x9D};
String decodedPlatformDefault = new String(quoteutf8, "Windows-1252");
byte[] encodedPlatformDefault = decodedPlatformDefault.getBytes("Windows-1252");

for( byte i : encodedPlatformDefault ) {
    System.out.print(String.format( "%02x ", i ));
   //e2 80 3f   
}
于 2013-01-17T12:50:25.297 回答
0

从字节数组创建新字符串以及从字符串返回字节数组时,您应该始终指定字符集名称。

如果没有,将采用您系统的默认字符集,可能会在任何地方产生问题......

代替

new String(myByteArray);
//... and...
myString.getBytes();

你应该使用

new String(myByteArray, "UTF-8");
//... and...
myString.getBytes("UTF-8");

例如

Transformer transformer = TransformerFactory.newInstance().newTransformer();

transformer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
transformer.setOutputProperty(OutputKeys.INDENT, "yes");

StreamResult result = new StreamResult(new StringWriter());
DOMSource source = new DOMSource(xmlDocument);
transformer.transform(source, result);

return result.getWriter().toString().getBytes("UTF-8");

从 Java 1.6 开始,您可以指定一个 Charset而不是包含 charset 名称的 String:

于 2013-01-17T13:14:47.280 回答