我编写了以下代码来解析给定页面的超链接。
WebClient web = new WebClient();
string html = web.DownloadString("http://www.msdn.com");
string[] separators = new string[] { "<a ", ">" };
List<string> hyperlinks= html.Split(separators, StringSplitOptions.None).Select(s =>
{
if (s.Contains("href"))
return s;
else
return null;
}).ToList();
尽管仍然需要调整字符串拆分以完美返回 url。我的问题是有一些数据结构,类似于 XmlReader 的东西,它可以有效地读取 HTML 字符串。
任何改进上述代码的建议也会有所帮助。
谢谢你的时间。