2

我调用一个 Web 服务,它返回一些包含在 XML 信封中的 HTML ......类似于:

<xml version="1.0" cache="false">
    <text color="white">
        <p> Some text <br /> <p>
    </text>
</xml>

我使用 XmlPullParser 来解析这个 XML/HTML。获取文本元素,我执行以下操作:

case XmlPullParser.START_TAG:

    xmlNodeName = parser.getName();

    if (xmlNodeName.equalsIgnoreCase("text")) {
        String color = parser.getAttributeValue(null, "color");
        String text = parser.nextText();

        if (color.equalsIgnoreCase("white")) {

            detail.setDetail(Html.fromHtml(text).toString());

        }
    }
break;

这很好用,可以获取文本或 html元素,即使它包含一些 html 标签。

问题出现时元素的数据以<p>标记开头,如上例所示。在这种情况下,数据丢失并且文本为空。

我该如何解决这个问题?

编辑

感谢Nik & rajesh指出我的服务响应实际上不是有效的 XML & 未正确关闭的元素。但我无法控制服务,所以我无法编辑返回的内容。我想知道是否有类似HTML Agility的东西可以解析任何类型的格式错误的 HTML,或者至少可以获取 html 标签中的内容.. 就像我的情况中的<text> ... </text>内部一样?那也不错。

或者任何我可以用来解析我从服务中得到的东西的东西都会很好,只要它可以很好地实现。

对不起我的英语不好

4

3 回答 3

3

您看到这种行为是因为<text>...</text>标签内的不是文本元素,而是 XML 节点元素。您应该将内容包含在 CDATA 部分中。

编辑:在评论中为我的建议提供代码段。它确实适用于您提供的示例 XML。

         StringBuffer html = new StringBuffer();
         int eventType = parser.getEventType();
         while (eventType != XmlPullParser.END_DOCUMENT) {
          if(eventType == XmlPullParser.START_TAG) {
              String name = parser.getName();
              if(name.equalsIgnoreCase("text")){
                  isText = true;
              }else if(isText){
                  html.append("<");
                  html.append(name);
                  html.append(">");
              }
          } else if(eventType == XmlPullParser.END_TAG) {
              String name = parser.getName();
              if(name.equalsIgnoreCase("text")){
                  isText = false;
              }else if(isText){
                  html.append("</");
                  html.append(name);
                  html.append(">");                   
              }
          } else if(eventType == XmlPullParser.TEXT) {
              if(isText){
                  html.append(parser.getText());
              }
          }
          eventType = parser.next();
         }
于 2012-04-19T10:54:11.487 回答
2

因为上面的代码你没有关闭"</p>"TAG。

<p> Some text <br /> </p>

用过这条线。

于 2012-04-19T10:52:20.613 回答
1

解决方案

Martin将接收到的数据首先转换为字符串的方法的启发,我以一种混合方法处理了我的问题。

将接收到的 InputStream 的值转换为字符串,并将错误的标签替换为“”(或任何你想要的):如下

InputStreamReader isr = new InputStreamReader(serviceReturnedStream);
BufferedReader br = new BufferedReader(isr);
StringBuilder xmlAsString = new StringBuilder(512);
String line;
try {
    while ((line = br.readLine()) != null) {
        xmlAsString.append(line.replace("<p>", "").replace("</p>", ""));
    }
} catch (IOException e) {
    e.printStackTrace();
}

现在我有一个包含正确 XML 数据的字符串(就我而言),所以只需使用普通的 XmlPullParser 来解析它,而不是自己手动解析它:

XmlPullParserFactory factory = XmlPullParserFactory.newInstance();
factory.setNamespaceAware(false);
XmlPullParser parser = factory.newPullParser();
parser.setInput(new StringReader(xmlAsString.toString()));

希望这对某人有帮助!

于 2012-04-23T10:38:52.383 回答