0

我需要采用如下所示的 HTML:

<p> <span> <ul> <li>LIST ELEMENT</li> </ul> </span> </p>

...并在保留该 DOM 层次结构的同时对其进行解析。

当我解析上述内容时,Jsoup 吐出:

<span></span><ul><li>LIST ELEMENT></li></ul>

我尝试在各种 HTML 验证器中解析原始 HTML,他们都说它是无效的并且做同样的事情。这我知道,但我需要保留这个无效标记。

有没有我可以在 Jsoup 中设置的设置来使它保留这个层次结构,尽管它是无效的?

4

1 回答 1

1

尝试使用Xml Parser而不是默认的 html 解析器。

public static Parser xmlParser()

创建一个新的 XML 解析器。此解析器假定不知道传入的标签,也不将其视为 HTML,而是直接从输入创建一个简单的树。

回报:

    a new simple XML parser.

来源:http: //jsoup.org/apidocs/org/jsoup/parser/Parser.html#xmlParser%28%29

例子:

Document doc = Jsoup.parse(html, "", Parser.xmlParser());
于 2013-06-14T15:34:27.757 回答