我正在编写一个程序,该程序将帮助我找出我的竞争对手链接到的网站。
为此,我正在编写一个程序来解析 HTML 文件,并生成 2 个列表:内部链接和外部链接。
我将使用内部链接进一步爬取网站,而外部链接实际上是我正在寻找的。
如何使用 .NET RegEx 解析 HTML 文件并找到 1. 外部链接。2.内部链接。
在此先感谢,Eytan Levit。
编辑:回答这个问题 - 不 - 我不受正则表达式的约束,我可以使用任何其他想法。
我正在编写一个程序,该程序将帮助我找出我的竞争对手链接到的网站。
为此,我正在编写一个程序来解析 HTML 文件,并生成 2 个列表:内部链接和外部链接。
我将使用内部链接进一步爬取网站,而外部链接实际上是我正在寻找的。
如何使用 .NET RegEx 解析 HTML 文件并找到 1. 外部链接。2.内部链接。
在此先感谢,Eytan Levit。
编辑:回答这个问题 - 不 - 我不受正则表达式的约束,我可以使用任何其他想法。
不要为此使用正则表达式。
使用专门为解析 HTML 而设计的HTML Agility Pack之类的东西。(在他们的 CodePlex 主页上甚至还有一个示例,可以找到页面中的所有链接。)
我曾使用 Regex 进行 Html 解析,它非常快,但现在有更好的选择可以降低开发成本。
试试Linq To Html很好,Beth 有一篇很棒的文章,可以在这里找到