0

对于我正在从事的个人项目,我想从网站上获取流量数据。有问题的网站在表格的一个单元格中显示了这一点。我可以简单地让我的程序连接到该站点,打开页面,然后将该单元格的内容作为字符串获取吗?在 .NET 框架中主要使用 C#。

4

3 回答 3

2

这是一种通常称为“网页抓取”的操作。您可以使用 WebClient 手动完成:

using System.Net;

using (WebClient client = new WebClient ()) 
{
    html = client.DownloadString(@"http://somesite.com/somepage.html");        
}

然后解析字符串以查找您想要的数据。这可能很容易或非常困难,具体取决于您正在抓取的页面的复杂性。

更好的方法是使用像HTML Agility Pack这样的网络抓取库。

于 2012-10-12T18:46:09.840 回答
0

假设它是一个简单的 GET,使用 System.Net.WebClient 到 DownloadString(...),然后使用 RegExpr 查找单元格的内容。

于 2012-10-12T18:40:33.800 回答
0

看看WebFetch

这是一个关于获取 HTTP 内容的非常好的教程和示例代码。

于 2012-10-12T18:44:16.173 回答