好的,所以我试图通过正则表达式从谷歌主页中提取所有链接。
但我面临一个莫名其妙的问题。当我将请求发送到谷歌主页并尝试从页面中提取所有链接时,我通常会得到一个结果,其余的都是垃圾。但是,当我手动查看页面的源代码并提取一些链接以针对它工作的模式进行测试时。
现在我不知道这里出了什么问题,我认为我的模式有缺陷,我正在努力让它正确,或者谷歌可能正在向我的代码和浏览器发送不同的响应。如果我能对这个问题有所了解,我真的很感激。
我的模式
string pattern = @"=("")?(https?:\/\/)?[\w.-]+\.[\w]*([/]?[\w]*)*("")?";
我的显示代码
Match match = Regex.Match(source, pattern);
if (match.Success)
{
foreach (var res in match.Groups)
{
Console.WriteLine(res);
}
Console.ReadKey();
}