java - 如何将 SAX 解析器中的原始 Latin-1 char[] 转换为正确的 UTF-8 字符串？

Question

我一直在尝试使用 Java SAX 解析器来解析 ISO-8859-1 字符编码的 XML 文件。否则这很好，但是像ä和ö这样的特殊字符让我很头疼。简而言之，ContentHandler.characters(...)方法给了我奇怪的字符，你甚至不能使用 char 数组来构造具有指定编码的 String。

这是两个文件中的完整最小工作示例：

latin1.xml：

<?xml version='1.0' encoding='ISO-8859-1' standalone='no' ?>
<x>Motörhead</x>

该文件以所述 Latin-1 格式保存，因此 hexdump 给出：

$ hexdump -C latin1.xml 
00000000  3c 3f 78 6d 6c 20 76 65  72 73 69 6f 6e 3d 27 31  |<?xml version='1|
00000010  2e 30 27 20 65 6e 63 6f  64 69 6e 67 3d 27 49 53  |.0' encoding='IS|
00000020  4f 2d 38 38 35 39 2d 31  27 20 73 74 61 6e 64 61  |O-8859-1' standa|
00000030  6c 6f 6e 65 3d 27 6e 6f  27 20 3f 3e 0a 3c 78 3e  |lone='no' ?>.<x>|
00000040  4d 6f 74 f6 72 68 65 61  64 3c 2f 78 3e           |Mot.rhead</x>|

因此，正如您所期望的那样，“ö”使用单个字节 f6 进行编码。

然后，这里是 Java 文件，以 UTF-8 格式保存：

MySAXHandler.java：

import java.io.File;
import java.io.FileReader;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.InputSource;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;

public class MySAXHandler extends DefaultHandler {
private static final String FILE = "latin1.xml"; // Edit this to point to the correct file

@Override
public void characters(char[] ch, int start, int length) {
    char[] dstCharArray = new char[length];
    System.arraycopy(ch, start, dstCharArray, 0, length);
    String strValue = new String(dstCharArray);
    System.out.println("Read: '"+strValue+"'");
    assert("Motörhead".equals(strValue));
}

private XMLReader getXMLReader() {
    try {
        SAXParser saxParser = SAXParserFactory.newInstance().newSAXParser();
        XMLReader xmlReader = saxParser.getXMLReader();
        xmlReader.setContentHandler(new MySAXHandler());
        return xmlReader;
    } catch (Exception ex) {
        throw new RuntimeException("Epic fail.", ex);
    }
}

public void go() {
    try {
        XMLReader reader = getXMLReader();
        reader.parse(new InputSource(new FileReader(new File(FILE))));
    } catch (Exception ex) {
        throw new RuntimeException("The most epic fail.", ex);
    }
}

public static void main(String[] args) {
    MySAXHandler tester = new MySAXHandler();
    tester.go();
}
}

运行该程序的结果是它输出Read: 'Mot�rhead'（ö 替换为“? in a box”），然后由于断言错误而崩溃。如果您查看 char 数组，您会看到编码字母 ö 的 char 由三个字节组成。它们对我没有任何意义，因为在 UTF-8 中，ö 应该用两个字节编码。

我试过的

我尝试将字符数组转换为字符串，然后将该字符串的字节传递给另一个带有字符集编码参数的字符串构造函数。我也玩过 CharBuffers 并试图找到可能与 Locale 类一起使用的东西来解决这个问题，但我尝试的任何方法似乎都不起作用。

score 4 · Accepted Answer

问题是您正在使用 aFileReader来读取文件，而不是像之前建议的评论者那样使用 FileInputStream 。在go方法中，取出FileReader并替换为FileInputStream。

public void go() {
    try {
        XMLReader reader = getXMLReader();
        reader.parse(new InputSource(new FileInputStream(new File(FILE))));
    } catch (Exception ex) {
        throw new RuntimeException("The most epic fail.", ex);
    }
}

您现在拥有的方式是FileReader使用默认平台编码在将字符传递给 SAX 解析器之前对其进行解码，这不是您想要的。如果替换为FileInputStream，则 XML 解析器应该正确读取字符集编码的处理指令，并为您处理字符集解码。

因为 FileReader 正在进行解码，所以您会看到无效字符。如果您让 SAX 解析器处理它，它应该可以正常运行。

score 0 · Accepted Answer

你在浑浊的水中钓鱼；很多事情都具有误导性。正如@JBNizet 所指出的：阅读器以某种编码读取文本，已经在读取字节的 InputStream 上进行了转换。如果您不指定编码，则将采用平台编码。

    reader.parse(new InputSource(new FileInputStream(new File(FILE))));

这与 XML 中的实际编码属性无关。

java源编码必须与编辑器编码一致，否则字符串文字会出错。

System.out.println 也可能存在误解。

此外，“ISO-8859-1”是 Windows Latin-1、“Windows-1252”的子集。如果您遇到特殊字符的问题，建议使用“Windows-1252”（在 java 中可以使用“Cp1252”）。

score 0 · Accepted Answer

在 characters() 方法中：

当你构造一个新的 String 对象时，首先将你的 char[] 转换为 byte[]，然后调用构造函数 'new String(byte[], String charSetName)'，而不是默认的 'new String(char [])'

如果您需要更多帮助，请尝试：http ://www.exampledepot.com/egs/java.nio.charset/ConvertChar.html

java - 如何将 SAX 解析器中的原始 Latin-1 char[] 转换为正确的 UTF-8 字符串？

3 回答 3

Related

Reference