我正在使用 JSoup 1.6.2。我有这个 HTML ...
<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;"">
请注意标签末尾之前的杂散引号。我希望 JSoup 能以某种方式清理它。我尝试通过运行来使一切正确...
final org.jsoup.nodes.Document doc = Jsoup.parse(html);
结果是
<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;" "="">
这仍然不是很好的形式。有没有办法可以采用格式错误的 HTMl 并使用 JSoup 使其格式正确?除此之外,是否还有另一个 HTML tidy-upper 可以完成上述示例的工作,但也允许我以 String 或 org.w3c.dom.Document 对象的形式访问生成的 HTML?