java - 用撇号解析 XML

Question

以 BBC 新闻的 RSS 提要为例，他们的一条新闻如下：

<item><title>Pupils 'bullied on sports field'</title><description>bla bla..

我有一些 java 代码解析这个 - 但是，当标题包含撇号（如上）时，解析停止，所以我最终得到以下标题：Pupils '然后它继续并解析描述（这很好） . 我如何让它解析完整的标题？以下是我解析信息的 for 循环内部的一段代码：

                    NodeList title = element.getElementsByTagName("title");
                    Element line = (Element) title.item(0);
                    tmp.setTitle(getCharacterDataFromElement(line).toString());

完全相同的代码用于解析描述和 pubDate 等其他元素，这些都很好。

这是 getCharacterDataFromElement 方法：

public static String getCharacterDataFromElement(Element e) {
    Node child = ((Node) e).getFirstChild();
    if (child instanceof CharacterData) {
        CharacterData cd = (CharacterData) child;
        return cd.getData();
    }
    return "";
}

我究竟做错了什么？我使用 DocumentBuilder、DocumentBuilderFactory 和 org.w3c.dom 来处理 RSS Feed。

score 2 · Accepted Answer

您的 getCharacterDataFromElement 仅查看第一个子元素 - 查看是否还有其他子元素并将所有文本粘贴在一起

HTH-DF

score 0 · Accepted Answer

正如 davidfrancis 建议的那样，您应该遍历getCharacterDataFromElement().

或者，如果您可以使用 DOM 级别 3，则可以使用Node.getTextContent()方法来代替您想要的。

NodeList title = element.getElementsByTagName("title");
Element line = (Element)title.item(0);
tmp.setTitle(line.getTextContent());

score -1 · Accepted Answer

好吧，AFAIK，撇号是 XML 中的保留字符，因此应该编码为'.

这意味着 BBC 新闻 RSS 提要不提供格式良好的 XML。

最好的办法是向 BBC 新闻 RSS 提要提供商发布错误报告，以便他们修复它。

java - 用撇号解析 XML

3 回答 3

Related

Reference