现在,我有一些代码可以读取页面并将所有内容保存到 html 文件中。但是,有一些问题......一些标点符号和特殊字符显示为问号。
当然,如果我手动执行此操作,我会使用 Unicode 编码而不是默认的 ANSI 保存 .txt 文件。我环顾四周,我所看到的只是抱怨Java不可能或我不理解的一半解释......
无论如何,谁能帮我纠正问号?这是我下载页面的代码部分。(lister 创建了一个 url 数组来下载,用于有页面的站点。你可以忽略它,它工作正常。)
public void URLDownloader(String site, int startPage, int endPage) throws Exception {
String[] pages = URLLister(site, startPage, endPage);
String webPage = pages[0];
int fileNumber = startPage;
if (startPage == 0)
fileNumber++;
//change pages
for(int i = 0; i < pages.length; i++) {
webPage = pages[i];
URL url= new URL(webPage);
BufferedReader in = new BufferedReader(
new InputStreamReader(url.openStream()));
PrintWriter out = new PrintWriter(name + (fileNumber+i) + ".html");
String inputLine;
//while stuff to read on current page
while ((inputLine = in.readLine()) != null) {
out.println(inputLine); //write line of text
}
out.close(); //end writing text
if (startPage == 0)
startPage++;
console.append("Finished page " + startPage + "\n");
startPage++;
}