我正在使用 jsoup 来抓取不同的 html 页面:
public class HtmlParse {
public static void main(String[] args) throws IOException {
String site = args[0];
Document doc = Jsoup.connect(site).get();
String htm = doc.body().text();
System.out.println(htm);
}
}
它工作得很好。然而,它的回报似乎有很多绒毛(即:网站链接 [a href])。有没有一种快速的方法可以在 jsoup 中省略它?我找到了getElementsByTag文献,但很难使用它。
先感谢您。