0

我的要求是做 Web 应用程序以获取目标内容,并且必须使用 HttpURLConnection 添加请求标头。

我使用此代码

    try{
        String urlStr = "http://test/STAM/Login";

        url = new URL(urlStr);
        urlconn = (HttpURLConnection)url.openConnection();
        urlconn.setRequestProperty("Accept-Language","en-us,en;q=0.5");
        urlconn.setRequestProperty("Accept-Charset","ISO-8859-1,utf-8;q=0.7,*;q=0.7");
        urlconn.setRequestProperty("User-Agent","Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.16) Gecko/20110319 Firefox/3.6.16");

        urlconn.connect();
        //read the result from the server
        rd  = new BufferedReader(new InputStreamReader(urlconn.getInputStream()));
        sb = new StringBuilder();  
        while ((line = rd.readLine()) != null)
        {
            sb.append(line + '\n');
        }

        out.println(sb.toString());

   } catch(Exception e) {
        e.printStackTrace();
   } finally {
   //close the connection, set all objects to null
        urlconn.disconnect();
        rd = null;
        sb = null;
        wr = null;
        urlconn = null;
   }

结果是:我的代码将只获取源内容,但无法获取 css、图像文件、javascript 等,因为它将从本地主机加载,例如“http://localhost:8080/test/img/test.gif”而不是“http://test/STAM/img/test.gif”。如果我错了或者你有什么办法可以解决这个问题,请告诉我。

非常感谢。

4

3 回答 3

2

据我了解,您希望在获取 html 页面时获取页面中使用的所有资源(css/js/images/...)。

您可能知道,HTML是一种引用外部资源的标记语言。获取所有这些资源并呈现页面是 Web 浏览器的工作。如果您想拥有所有资源,那么您应该解析源内容以提取资源链接并单独获取它们。

如果您想从原始位置重用资源,您必须注意资源 URL 仍然可以从页面打开的位置访问。(URL 可以是绝对的或相对的

于 2012-10-24T08:33:59.760 回答
1

不要使用 HttpUrlConnection 来执行此操作。你最终会解析 html 文件来解决一个已经解决的问题。

使用:HttpClient

于 2012-10-24T09:01:19.630 回答
0

我已经在网络中使用 URLConnection 从任何网站获取 Html css 和 javascript 代码的来源,我在这里尝试使用 URL 和 URLConnection 和 InputStream 获取微软网站的代码。

import java.io.BufferedInputStream;
import java.io.IOExecption;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import java.net.MalformedURLExeption;
import java.net.URL;
import java.net.URLConnection;

public class Main2{
    public static void main(String[] args) throws IOException{
        URL u = new URL("http://www.microsoft.com/");
        URLConnection uc = u.openConnection();
        InputStream is = uc.getInputStresm();
        InputStream buf = new BuffredInputStream(is);
        Reader r = new InputStreamReader(buf);
        int i;
        while((i = r.read()) != -1){
            System.out.println((char)i);
        }
    }
}

或者试试下面的代码。

    URLConnection uc = new URL("http://www.google.com").openConnection();
    BufferedInputStream bis = new BufferedInputStream(uc.getInputStream());
    int i;
    while(( i == bis.read()) != -1){
        System.out.println((char)i);
    }
    bis.close();
    }
}
于 2019-12-05T08:33:21.390 回答