我必须为我的项目使用爬虫。
我使用简单的 dom 类来获取页面中的所有链接。
现在我只想过滤那些形式为"/questions/3904482/<title of the question"
.
这是我的尝试:
include_once('simple_html_dom.php');
$html = new simple_html_dom();
$html->load_file('http://stackoverflow.com/questions?sort=newest');
$pat='#^/question/([0-9]+)/#';
foreach($html->find('a') as $link)
{
echo preg_match($pat, $link->href);
{
echo $link->href."<br>";
}
}
所有链接都会被过滤掉。