我做了太多的网络抓取,但这里有一些选项:我有一个我添加的默认标题列表,因为所有这些都是浏览器所期望的:
        wc.Headers[HttpRequestHeader.UserAgent] = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.97 Safari/537.11";
        wc.Headers[HttpRequestHeader.ContentType] = "application/x-www-form-urlencoded";
        wc.Headers[HttpRequestHeader.Accept] = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";
        wc.Headers[HttpRequestHeader.AcceptEncoding] = "gzip,deflate,sdch";
        wc.Headers[HttpRequestHeader.AcceptLanguage] = "en-GB,en-US;q=0.8,en;q=0.6";
        wc.Headers[HttpRequestHeader.AcceptCharset] = "ISO-8859-1,utf-8;q=0.7,*;q=0.3";
(WC 是我的 WebClient)。
作为进一步的帮助 - 这是我保存 cookie 的 webclient 类 - 这也是一个巨大的帮助:
public class CookieWebClient : WebClient
{
    public CookieContainer m_container = new CookieContainer();
    public WebProxy proxy = null;
    protected override WebRequest GetWebRequest(Uri address)
    {
        try
        {
            ServicePointManager.DefaultConnectionLimit = 1000000;
            WebRequest request = base.GetWebRequest(address);
            request.Proxy = proxy;
            HttpWebRequest webRequest = request as HttpWebRequest;
            webRequest.Pipelined = true;
            webRequest.KeepAlive = true;
            if (webRequest != null)
            {
                webRequest.CookieContainer = m_container;
            }
            return request;
        }
        catch
        {
            return null;
        }
    }
}
这是我通常的用途。使用您可能拥有的所有解析功能将静态副本添加到您的基站点类:
    protected static CookieWebClient wc = new CookieWebClient();
并这样称呼它:
public HtmlDocument Download(string url)
    {
        HtmlDocument hdoc = new HtmlDocument();
        HtmlNode.ElementsFlags.Remove("option");
        HtmlNode.ElementsFlags.Remove("select");
        Stream read = null;
        try
        {
            read = wc.OpenRead(url);
        }
        catch (ArgumentException)
        {
            read = wc.OpenRead(HttpHelper.HTTPEncode(url));
        }
        hdoc.Load(read, true);
        return hdoc;
    }
您可能崩溃的另一个主要原因是连接被服务器关闭,因为您打开连接的时间过长。您可以通过在上面的下载部分周围添加 try catch 来证明这一点,如果失败,请重置 webclient 并再次尝试下载:
HtmlDocument d = new HtmlDocument();
                            try
                            {
                                d = this.Download(prp.PropertyUrl);
                            }
                            catch (WebException e)
                            {
                                this.Msg(Site.ErrorSeverity.Severe, "Error connecting to " + this.URL + " : Resubmitting..");
                                wc = new CookieWebClient();
                                d = this.Download(prp.PropertyUrl);
                            }
这一直节省我的屁股,即使是服务器拒绝你,这可以重新调整很多。Cookie 被清除,您可以再次自由漫游。如果更糟真的变得更糟 - 添加代理支持并为每 50 次请求应用一个新代理。
这应该足以让您踢自己和任何其他网站。
评价我!