是否有任何可靠的方法来找出指向我们详细新闻页面的链接集合。换句话说,在访问网站的第一页后,我只想要那些引用新闻项目的链接。任何解决方案?
问问题
713 次
2 回答
0
您可以执行一个简单的 WebRequest 并下载一个页面并通过 html 搜索您要解析的内容。
WebRequest req = WebRequest.Create
("http://www.domain.com/news.html");
req.Proxy = null;
using (WebResponse res = req.GetResponse())
using (Stream s = res.GetResponseStream())
using (StreamReader sr = new StreamReader(s))
File.WriteAllText("news.html", sr.ReadToEnd());
//search through html page for news content.
System.Diagnostics.Process.Start("news.html");
于 2010-05-03T15:25:40.567 回答
0
如果是针对某个网站,您总是可以尝试获取该网站的 HTML 并使用正则表达式提取新闻文章的链接。只需在 HTML 中找到您的代码可以用来识别链接位置的片段。
我这样做了几次以从网站上抓取一些信息。
但也许是一个明显的问题,网站上没有可用的 RSS 提要?
于 2010-05-03T11:57:56.167 回答