我正在尝试使用以下内容在 java 中下载网页:
URL url = new URL("www.jksfljasdlfas.com");
FIle to = new File("/home/test/test.html");
Reader in = new InputStreamReader(url.openStream(), "UTF-8");
Writer out = new OutputStreamWriter(new FileOutputStream(to), "UTF-8");
int c;
while((c = in.read()) != -1){
out.write(c);
}
in.close();
out.close();
我下载了页面,一些字符被实体替换了:
this:
<a href="http://www.generation276.org/film/?m=200812&paged=2" >Pagina successiva »</a>
变成 this:
<a href="http://www.generation276.org/film/?m=200812&paged=2" >Pagina successiva »</a>
用 Chrome 下载相同的页面,& 仍然是 &。
我是字符集/编码的新手;有人能理解这个问题吗?