java - 当我使用 SaxParser 解析 xml 标记时，为什么缺少某些字符？

Question

我正在使用 SaxParser 在我的 android 应用程序中解析一个包含近 90000 个字符的 xml 响应。xml 如下所示：

 <Registration>
     <Client>   
         <Name>John</Name>
         <ID>1</ID>
         <Date>2013:08:22T03:43:44</Date>
     </Client>  
     <Client>   
         <Name>James</Name>
         <ID>2</ID>
         <Date>2013:08:23T16:28:00</Date>
     </Client>
     <Client>   
         <Name>Eric</Name>
         <ID>3</ID>
         <Date>2013:08:23T19:04:15</Date>
     </Client>

     ..... 
 </Registration>

有时解析器会遗漏日期标记中的一些字符。它没有返回 2013:08:23T19:04:15 而是返回 2013:08:23T。我尝试使用以下代码行跳过响应 xml 字符串中的所有空格：

 responseStr = responseStr.replaceAll("\\s","");

但后来我得到以下异常：

 Parsing exception: org.apache.harmony.xml.ExpatParser$ParseException: At line 1, column 16: not well-formed (invalid token)

以下是我用于解析的代码：

 try {
            SAXParserFactory factory = SAXParserFactory.newInstance();
            SAXParser saxParser = factory.newSAXParser();

            DefaultHandler handler = new DefaultHandler() {
                public void startElement(String uri, String localName,String qName, Attributes attributes) throws SAXException {
                    tagName = qName;
                }

                public void endElement(String uri, String localName, String qName) throws SAXException {

                }

                public void characters(char ch[], int start, int length) throws SAXException {
                    if(tagName.equals("Name")){
                        obj = new RegisteredUser();
                        String str = new String(ch, start, length);
                        obj.setName(str);
                    }else if(tagName.equals("ID")){
                        String str = new String(ch, start, length);
                        obj.setId(str);
                    }else if(tagName.equals("Date")){
                        String str = new String(ch, start, length);
                        obj.setDate(str);

                        users.add(obj);
                    }
                }

                public void startDocument() throws SAXException {
                    System.out.println("document started");
                }

                public void endDocument() throws SAXException {
                    System.out.println("document ended");
                }
            };

            saxParser.parse(new InputSource(new StringReader(resp)), handler);

        }catch(Exception e){
            System.out.println("Parsing exception: "+e);
            System.out.println("exception");

        }

知道为什么解析器会从标签中跳过字符，我该如何解决这个问题。提前致谢。

score 9 · Accepted Answer

对于任何给定的文本节点，可能会characters多次调用它。

在这种情况下，您必须自己连接结果！

原因是当解析器的一些内部缓冲区结束而文本节点的内容仍然存在时。而不是扩大缓冲区（当文本节点很大时可能需要大量内存），而是让我们由客户端代码处理。

你想要这样的东西：

StringBuilder textContent = new StringBuilder();

public void startElement(String uri, String localName,String qName, Attributes attributes) throws SAXException {
    tagName = qName;
    textContent.setLength(0);
}
public void characters(char ch[], int start, int length) throws SAXException {
    textContent.append(ch, start, length);
}
public void endElement(String uri, String localName, String qName) throws SAXException {
    String text = textContent.toString();
    // handle text here
}

当然，可以改进此代码以仅跟踪您实际关心的节点的文本内容。

score 2 · Accepted Answer

由于其他提到characters的方法可能会被多次调用，它由 SAX 解析器实现返回 all contiguous character data in a single chunk, or they may split it into several chunks。查看文档SAX Parser characters

score 1 · Accepted Answer

您错误地假设将立即读取文本节点中的所有字符并将其发送到该characters()方法。事实并非如此。characters()可以为单个文本节点多次调用该方法。

您应该将所有字符附加到 StringBuilder，然后仅在endElement()调用时转换为 String 或 Date。

java - 当我使用 SaxParser 解析 xml 标记时，为什么缺少某些字符？

3 回答 3

Related

Reference