java - 访问任何 URL 时处理响应

Question

我正在尝试制作一个我想要的程序，当我点击任何网址或你可以说网站时，我正在阅读该网站的所有内容。我为此使用 URL 类。

这是我的代码..

 import java.net.*;
 import java.io.*;
 public class URLConnectionReader 
 {
 public static void main(String[] args) throws Exception 
{
     URL oracle = new URL("http://www.oracle.com/index.html");
     URLConnection yc = oracle.openConnection();

    BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream()));
    String inputLine;
    while ((inputLine = in.readLine()) != null)

    System.out.println(inputLine);

    in.close();
}
}

但作为响应，它显示了查看页面源的内容，我只想要网页内容，而不是全部。我怎样才能做到这一点？

score 1 · Accepted Answer

1

然后使用 HTML 解析器（如jsoup）解析您收到的 HTML

于 2012-05-04T12:10:27.070 回答

score 0 · Accepted Answer

网页内容 == 页面来源。浏览器分析 html 并将其可视化以供人眼查看。如果你只想要正文，你可以使用 jsoup：

String text = Jsoup.parse(html).body().text();

但你也会得到一些不需要你想要的内容的广告、菜单和其他文本。

java - 访问任何 URL 时处理响应

2 回答 2

Related

Reference