对于我正在从事的个人项目,我想从网站上获取流量数据。有问题的网站在表格的一个单元格中显示了这一点。我可以简单地让我的程序连接到该站点,打开页面,然后将该单元格的内容作为字符串获取吗?在 .NET 框架中主要使用 C#。
问问题
1186 次
3 回答
2
这是一种通常称为“网页抓取”的操作。您可以使用 WebClient 手动完成:
using System.Net;
using (WebClient client = new WebClient ())
{
html = client.DownloadString(@"http://somesite.com/somepage.html");
}
然后解析字符串以查找您想要的数据。这可能很容易或非常困难,具体取决于您正在抓取的页面的复杂性。
更好的方法是使用像HTML Agility Pack这样的网络抓取库。
于 2012-10-12T18:46:09.840 回答
0
假设它是一个简单的 GET,使用 System.Net.WebClient 到 DownloadString(...),然后使用 RegExpr 查找单元格的内容。
于 2012-10-12T18:40:33.800 回答
0
看看WebFetch。
这是一个关于获取 HTTP 内容的非常好的教程和示例代码。
于 2012-10-12T18:44:16.173 回答