2

我正在使用 jsoup 来抓取不同的 html 页面:

public class HtmlParse {
    public static void main(String[] args) throws IOException {
     String site = args[0];
        Document doc = Jsoup.connect(site).get();
        String htm = doc.body().text();
        System.out.println(htm);
    }
}

它工作得很好。然而,它的回报似乎有很多绒毛(即:网站链接 [a href])。有没有一种快速的方法可以在 jsoup 中省略它?我找到了getElementsByTag文献,但很难使用它。

先感谢您。

4

1 回答 1

8

您可以“清理”已解析的文档,请参阅示例。例如,只留下简单的文本:

Whitelist whitelist = Whitelist.simpleText();
String result = Jsoup.clean(doc.html(), whitelist);

或者,您可以简单地删除所有a标签:

doc.select("a").remove();
于 2012-04-18T14:16:26.707 回答