c# - 用 C# 下载整个网站

Question

原谅我对这个问题的无知

我在用

 string p="http://" + Textbox2.text;
 string r= textBox3.Text;
 System.Net.WebClient webclient=new
 System.Net.Webclient();
 webclient.DownloadFile(p,r);

下载网页。你能帮我增强代码以便下载整个网站吗？尝试使用 HTML 屏幕抓取，但它只返回 index.html 文件的 href 链接。我如何继续前进

谢谢

score 10 · Accepted Answer

抓取网站实际上是一项繁重的工作，其中有很多极端案例。

改为调用wget 。该手册解释了如何使用“递归检索”选项。

score 9 · Accepted Answer

 protected string GetWebString(string url)
    {
        string appURL = url;
        HttpWebRequest wrWebRequest = WebRequest.Create(appURL) as HttpWebRequest;
        HttpWebResponse hwrWebResponse = (HttpWebResponse)wrWebRequest.GetResponse();

        StreamReader srResponseReader = new StreamReader(hwrWebResponse.GetResponseStream());
        string strResponseData = srResponseReader.ReadToEnd();
        srResponseReader.Close();
        return strResponseData;
    }

这会将网页放入来自提供的 URL 的字符串中。

然后，您可以使用 REGEX 解析字符串。

这篇小文章从 craigslist 中获取特定链接并将它们添加到 arraylist...根据您的目的进行修改。

 protected ArrayList GetListings(int pages)
    {
            ArrayList list = new ArrayList();
            string page = GetWebString("http://albany.craigslist.org/bik/");

            MatchCollection listingMatches = Regex.Matches(page, "(<p><a href=\")(?<LINK>/.+/.+[.]html)(\">)(?<TITLE>.*)(-</a>)");
            foreach (Match m in listingMatches)
            {
                list.Add("http://albany.craigslist.org" + m.Groups["LINK"].Value.ToString());
            }
            return list;
    }

c# - 用 C# 下载整个网站

2 回答 2

Related

Reference