1

我正在谈论执行大约 5 分钟以上的深度递归,您可能需要爬虫来执行此操作。为了提取页面的url链接和子url链接

PHP 中的深度递归似乎不太现实

例如

getInfo("www.example.com");

function getInfo($link){
   $content = file_get_content($link)

   if($con = $content->find('.subCategories',0)){
      echo "go deeper<br>";
      getInfo($con->find('a',0)->href);
   }

   else{
      echo "reached deepest<br>";
   }
}
4

1 回答 1

8

用递归做这样的事情在任何语言中实际上都是一个坏主意。你不知道爬虫会走多深,所以它可能会导致堆栈溢出。如果不是这样,它仍然会为巨大的堆栈浪费大量内存,因为 PHP 没有尾调用(除非必要,否则不会保留任何堆栈信息)。

将找到的 URL 推送到迭代检查的“to crawl”队列中:

$queue = array('www.example.com');
$done = array();
while($queue) {
    $link = array_shift($queue);
    $done[] = $link;
    $content = file_get_contents($link);
    if($con = $content->find('.subCategories', 0)) {
        $sublink = $con->find('a', 0)->href;
        if(!in_array($sublink, $done) && !in_array($sublink, $queue)) {
            $queue[] = $sublink;
        }
    }
}
于 2012-06-30T22:02:58.550 回答