jsoup - 我可以在不执行严格的 HTML 规则的情况下使用 Jsoup 进行解析吗？（块内的元素
标签？）

Question

我需要采用如下所示的 HTML：

<p> <span> <ul> <li>LIST ELEMENT</li> </ul> </span> </p>

...并在保留该 DOM 层次结构的同时对其进行解析。

当我解析上述内容时，Jsoup 吐出：

<span></span><ul><li>LIST ELEMENT></li></ul>

我尝试在各种 HTML 验证器中解析原始 HTML，他们都说它是无效的并且做同样的事情。这我知道，但我需要保留这个无效标记。

有没有我可以在 Jsoup 中设置的设置来使它保留这个层次结构，尽管它是无效的？

score 1 · Accepted Answer

尝试使用Xml Parser而不是默认的 html 解析器。

public static Parser xmlParser()

创建一个新的 XML 解析器。此解析器假定不知道传入的标签，也不将其视为 HTML，而是直接从输入创建一个简单的树。

回报：
    a new simple XML parser.

例子：

Document doc = Jsoup.parse(html, "", Parser.xmlParser());

jsoup - 我可以在不执行严格的 HTML 规则的情况下使用 Jsoup 进行解析吗？（块内的元素标签？）