我们正在进行一项与 Google 相关的项目,其中我们需要来自 Google.com 的搜索 URL 列表。请看我们的代码。
include('dom/simple_html_dom.php');
$html = "http://www.google.com/search?q=stackoverflow";
$doc = new DOMDocument();
$doc = new DOMDocument;
$doc->loadhtmlfile($html);
$tags = $doc->getElementsByTagName('a');
foreach ($tags as $tag) {
echo $tag->getAttribute('href')."<br>";
}
我们正在获取 Google 搜索结果页面中所有 URL 的列表。见下文....
/url?q=http://stackoverflow.com/users/login&sa=U&ei=c_FWUPyTEoHIrQfsiYB4&ved=0CB8QqwMoADAA&usg=AFQjCNG2OZyIKUhw3qJpqiEgscmvrCRoYw
/url?q=http://stackoverflow.com/questions/tagged/android&sa=U&ei=c_FWUPyTEoHIrQfsiYB4&ved=0CCUQqwMoAzAA&usg=AFQjCNFqJTvfXN8zUDwS_1jYs4xt5w0NJA
/url?q=http://careers.stackoverflow.com/&sa=U&ei=c_FWUPyTEoHIrQfsiYB4&ved=0CCEQqwMoATAA&usg=AFQjCNEt6onx0tAMTtPB0Qzx0mJhnabQ5w
/url?q=http://blog.stackoverflow.com/&sa=U&ei=c_FWUPyTEoHIrQfsiYB4&ved=0CCcQqwMoBDAA&usg=AFQjCNF674QxjxMjvwaLRXTN5qcjHNPQ9Q
我们只需要前 10 个搜索结果,没有添加 Google 的其他参数,例如这个http://stackoverflow.com/users/login
清理过的 URL
编辑
在另一种情况下,在随机情况下,有时值具有一些真正的参数http://stackoverflow.com/users/login?checking=ok&tesing=working
,但如果我们分解 URL,那么我们可以返回正确的参数。
已编辑
请帮助我使这个脚本更好。
谢谢
聚苯乙烯