0

我正在使用以下方法从我的网站检索源代码-

class WorkerClass1
{
    public static string getSourceCode(string url)
    {
        HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);
        HttpWebResponse resp = (HttpWebResponse)req.GetResponse();
        StreamReader sr = new StreamReader(resp.GetResponseStream());
        string sourceCode = sr.ReadToEnd();
        sr.Close();
        return sourceCode;
    }
}

然后WorkerClass1像这样实现-

private void button1_Click(object sender, EventArgs e)
    {
        string url = textBox1.Text;
        string sourceCode = WorkerClass1.getSourceCode(url);
        StreamWriter sw = new StreamWriter(@"path");
        sw.Write(sourceCode);
        sw.Close();

    }

这很好用,可以从我的主页检索 HTML,但是一旦检索到第一页,我想在页面底部找到链接。

有没有办法可以修改我当前的代码来做到这一点?

4

1 回答 1

1

是的当然。

我要做的是使用正则表达式读取 HTML 以查找链接。对于每场比赛,我会将这些链接放入队列或类似的数据结构中,然后使用相同的方法查看该来源。

考虑查看 HTMLAgilityPack 进行解析,它可能更容易,即使使用 Google 查找链接应该非常简单。

于 2012-10-24T11:37:20.070 回答