3

我的问题很简单:如果 htmlcontent 中有类似 img-tag 的标签,有没有办法将 java 中的 html 解析为 DOM-Document?

<p><img src="..."></p>

这是解析这些元素时给我一个 SAXException 的 Codesnippet:

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();

InputStream is = new ByteArrayInputStream( htmlcontent.getBytes());
Document dom = db.parse(is);
is.close();
4

4 回答 4

3

我不这么认为,但jsoup可以做到这一点。它不是 DOM API,但非常相似。

于 2012-07-12T14:47:10.603 回答
1

您不能使用,DocumentBuilder因为它是一个 XML 解析器。

但是您需要一个 HTML 解析器,例如:

于 2012-07-12T14:46:53.933 回答
1

其中之一可能会有所帮助:

于 2012-07-12T15:06:21.793 回答
0

HTML 不是 XML。

除非您使用 XHTML。

因此,XML 解析器没有理由解析您的 HTML。

使用像HtmlCleaner这样的 HTML 解析器。

于 2012-07-12T14:47:12.437 回答