0

我正在编写一个程序,该程序将帮助我找出我的竞争对手链接到的网站。

为此,我正在编写一个程序来解析 HTML 文件,并生成 2 个列表:内部链接和外部链接。

我将使用内部链接进一步爬取网站,而外部链接实际上是我正在寻找的。

如何使用 .NET RegEx 解析 HTML 文件并找到 1. 外部链接。2.内部链接。

在此先感谢,Eytan Levit。

编辑:回答这个问题 - 不 - 我不受正则表达式的约束,我可以使用任何其他想法。

4

2 回答 2

8

不要为此使用正则表达式。

使用专门为解析 HTML 而设计的HTML Agility Pack之类的东西。(在他们的 CodePlex 主页上甚至还有一个示例,可以找到页面中的所有链接。)

于 2009-07-01T15:35:59.590 回答
0

我曾使用 Regex 进行 Html 解析,它非常快,但现在有更好的选择可以降低开发成本。

试试Linq To Html很好,Beth 有一篇很棒的文章,可以在这里找到

于 2009-07-02T05:43:10.227 回答