-1

是否有任何可靠的方法来找出指向我们详细新闻页面的链接集合。换句话说,在访问网站的第一页后,我只想要那些引用新闻项目的链接。任何解决方案?

4

2 回答 2

0

您可以执行一个简单的 WebRequest 并下载一个页面并通过 html 搜索您要解析的内容。

   WebRequest req = WebRequest.Create
              ("http://www.domain.com/news.html");
    req.Proxy = null;
    using (WebResponse res = req.GetResponse())
    using (Stream s = res.GetResponseStream())
    using (StreamReader sr = new StreamReader(s))
        File.WriteAllText("news.html", sr.ReadToEnd());
    //search through html page for news content.

    System.Diagnostics.Process.Start("news.html");
于 2010-05-03T15:25:40.567 回答
0

如果是针对某个网站,您总是可以尝试获取该网站的 HTML 并使用正则表达式提取新闻文章的链接。只需在 HTML 中找到您的代码可以用来识别链接位置的片段。

我这样做了几次以从网站上抓取一些信息。

但也许是一个明显的问题,网站上没有可用的 RSS 提要?

于 2010-05-03T11:57:56.167 回答