我有一个联系人在解析 RSS 和 Atom 文件时遇到了 SAX 问题。据他说,就好像来自 Item 元素的文本在撇号或有时是重音字符处被截断。编码似乎也有问题。
我已经尝试过 SAX,我也进行了一些截断,但无法进一步挖掘。如果有人以前解决过这个问题,我会很感激一些建议。
这是 ContentHandler 中使用的代码:
public void characters( char[], int start, int end ) throws SAXException {
//
link = new String(ch, start, end);
编辑:编码问题可能是由于将信息存储在字节数组中,因为我知道 Java 在 Unicode 中工作。