1

我正在尝试开发一个桌面应用程序用作网站抓取工具。我的要求是用户应该能够在桌面应用程序中指定一个 url。桌面应用程序应该能够调用 asp.net 脚本从网站上抓取数据并将记录返回到桌面应用程序。

我应该为此使用 Web 服务还是 ASP.NET 运行时...???

任何帮助表示赞赏:)

额外细节

抓取活动已经完成。我使用了 HTMLAgility pkg。这是我从网页中提取公司名称列表的抓取代码。

public static String getPageHTML(String URL)
        {
            String totalCompanies = null;
            HttpWebRequest httpWebRequest = (HttpWebRequest)HttpWebRequest.Create(URL);

            IWebProxy myProxy = httpWebRequest.Proxy;

            if (myProxy != null)
            {
                myProxy.Credentials = CredentialCache.DefaultCredentials;
            }

            httpWebRequest.Method = "GET";

            HttpWebResponse res;

            res = (HttpWebResponse)httpWebRequest.GetResponse();

            HtmlDocument doc1 = new HtmlDocument();

            doc1.Load(res.GetResponseStream());

            HtmlNode node = doc1.DocumentNode.SelectSingleNode("//td[@class='mainbody']/table/tr[last()]/td");

            try
            {
                totalCompanies = node.InnerText;
                return totalCompanies;
            }
            catch (NullReferenceException e)
            {
                   totalCompanies = "No records found";
                    return totalCompanies;

             }




        }
4

3 回答 3

1

您可以在桌面应用程序中使用HttpWebRequest,我之前已经这样做过(winforms)。例如: -

HttpWebRequest req = (HttpWebRequest)WebRequest.Create("url");
var response = new StreamReader(req.GetResponse().GetResponseStream()).ReadToEnd();

然后,您可以使用HtmlAgilityPack解析响应中的数据:

 HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
 doc.LoadHtml(response);

 //Sample query
 var node = doc.DocumentNode.Descendants("div")
           .Where(d => d.Attributes.Contains("id")).ToList(); 
于 2013-04-26T08:57:44.257 回答
0

(包括更多细节/更具体会很有帮助)

如果你的 ASP.NET 页面已经完成了所有的抓取,而你需要做的就是访问那个 ASP.NET 页面,你可以简单地使用 HttpWebRequest

http://msdn.microsoft.com/en-us/library/456dfw4f.aspx - 简短描述和教程

如果该 URL 是要被抓取的网站,并且您需要在项目中包含该 ASP.NET 脚本,那么您需要将其添加为 Web 服务。

于 2013-04-26T08:59:31.673 回答
0

您可以同时使用这两种方法,也可以通过将网络浏览器添加到桌面应用程序来实现。我不知道为什么,但结果要快得多。

于 2013-04-26T09:27:03.220 回答