0

我正在尝试制作一个我想要的程序,当我点击任何网址或你可以说网站时,我正在阅读该网站的所有内容。我为此使用 URL 类。

这是我的代码..

 import java.net.*;
 import java.io.*;
 public class URLConnectionReader 
 {
 public static void main(String[] args) throws Exception 
{
     URL oracle = new URL("http://www.oracle.com/index.html");
     URLConnection yc = oracle.openConnection();

    BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream()));
    String inputLine;
    while ((inputLine = in.readLine()) != null)

    System.out.println(inputLine);

    in.close();
}
}

但作为响应,它显示了查看页面源的内容,我只想要网页内容,而不是全部。我怎样才能做到这一点?

4

2 回答 2

1

然后使用 HTML 解析器(如jsoup)解析您收到的 HTML

于 2012-05-04T12:10:27.070 回答
0

网页内容 == 页面来源。浏览器分析 html 并将其可视化以供人眼查看。如果你只想要正文,你可以使用 jsoup:

String text = Jsoup.parse(html).body().text();

但你也会得到一些不需要你想要的内容的广告、菜单和其他文本。

于 2012-05-04T12:59:19.997 回答