0

我目前正在使用 SAX 来解析一些 HTML。但是,我现在必须解析具有以下内容的文档:

`<OPTION VALUE="123" SELECTED>`

并且因为 SELECTED 没有设置实际值,所以它会引发错误(格式不正确,令牌无效)。有没有办法解决这个问题,以便我可以继续使用 SAX?

我的代码:

        SAXParserFactory spf = SAXParserFactory.newInstance();
        SAXParser sp = spf.newSAXParser();
        XMLReader xr = sp.getXMLReader();

        xr.setContentHandler(sch);
        InputSource is = new InputSource(Statics.SUBJECT_CODE_URL);
        xr.parse(is);
4

2 回答 2

1

您不能使用 SAX 来解析 HTML。HTML 不是 XML。完全有效的 HTML 文档不是有效的 XML 文档,您无能为力,无法让 XML 解析器解析它。

于 2013-05-03T00:24:12.097 回答
0

使用 SAX,您可以解析 XHTML,但无法成功解析 HTML,因为 HTML 不是格式良好的 XML。

于 2013-05-03T00:24:01.883 回答