所以我有 :
function crawl( $url ){
$content = @file_get_contents( $url );
if( $content === FALSE) {
echo "<br/> Not working " . $url;
return;
}
$content = strtolower( $content );
preg_match_all( '/http:\/\/[^ "\']+/', $content , $links );
foreach( $links[0] as $crawled ){
sleep( 1 );
crawl( $crawled );
}
}
我希望它通过我给它的站点($url),并搜索其中的所有链接,有点像网络爬虫,它通过第一个站点得到它得到的链接不会去任何地方因为它们是 css 链接或 js 或不是页面的东西。如何修复它以仅获取正文标签或实际链接中的链接?