1

我正在使用 JSoup 1.6.2。我有这个 HTML ...

 <a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;""> 

请注意标签末尾之前的杂散引号。我希望 JSoup 能以某种方式清理它。我尝试通过运行来使一切正确...

final org.jsoup.nodes.Document doc = Jsoup.parse(html);

结果是

  <a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;" "="">

这仍然不是很好的形式。有没有办法可以采用格式错误的 HTMl 并使用 JSoup 使其格式正确?除此之外,是否还有另一个 HTML tidy-upper 可以完成上述示例的工作,但也允许我以 String 或 org.w3c.dom.Document 对象的形式访问生成的 HTML?

4

2 回答 2

0

你能用正则表达式替换来解决这个问题吗?我不知道如何在 Java 中做到这一点,但在 JavaScript 中它会是这样的:

var str = '<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;"">';

var newStr = str.replace(/""/,'"');
//<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;">
于 2012-04-16T22:17:59.837 回答
0

基于这个答案,我建议您使用 JTidy 来“整理” HTML 源代码。

于 2012-04-17T10:18:16.470 回答