我目前正在开发一个小型网络爬虫作为一个副项目,基本上让它收集页面上的所有href,然后解析这些,我的问题是。
我怎样才能得到实际的页面结果?目前我正在使用以下
foreach($page->getElementsByTagName('a') as $link)
{
$compare_url = parse_url($link->getAttribute('href'));
if (@$compare_url['host'] == "")
{
$links[] = 'http://'.@$base_url['host'].'/'.$link->getAttribute('href');
}
elseif ( @$base_url['host'] == @$compare_url['host'] )
{
$links[] = $link->getAttribute('href');
}
}
如您所见,这将引入 jpeg、exe 文件等。我只需要提取 .php、.html、.asp 等网页。
我不确定是否有一些功能可以解决这个问题,或者它是否需要来自某种主列表的正则表达式?
谢谢