0

所以我正在尝试构建一个网络爬虫。我首先传递请求并获取页面的所有 HTML 作为响应。

接下来我想到了使用正则表达式从 HTML 页面中提取链接。然而,我越是尝试学习它们,它们看起来就越棘手。

是否有正则表达式的替代品(这似乎是一个讨论问题,但不是我已经搜索了互联网并且没有找到满意的答案)。

4

2 回答 2

2

HtmlAgilityPack是用于在 .NET 中解析 HTML 的最著名的库。

于 2013-08-06T12:57:56.330 回答
1

正则表达式不能用于 HTML 解析(请参阅http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html),请使用适当的 HTML 解析器,如 HtmlAgilityPack :

http://www.nuget.org/packages/HtmlAgilityPack

于 2013-08-06T12:58:16.843 回答