php - 使用多线程改进网络爬虫/蜘蛛

Question

我已经开始学习网络爬虫，并且在一篇文章的帮助下，我在下面构建了这个简单的文章。

它建议使用多线程来改进和使网络爬虫更快。

我想知道是否有人可以帮助我了解有关多线程的更多信息，甚至可以将其应用于下面的爬虫。

此外，如果您有任何其他建议或改进来改进此爬虫，请随时分享。

这是代码：

error_reporting( E_ERROR );

define( "CRAWL_LIMIT_PER_DOMAIN", 50 );

$domains = array();

$urls = array();

function crawl( $url )
{
    global $domains, $urls;
    $parse = parse_url( $url );
    $domains[ $parse['host'] ]++;
    $urls[] = $url;

    $content = file_get_contents( $url );
    if ( $content === FALSE )
        return;
    else {
        // do something with content.
    }

    $content = stristr( $content, "body" );
    preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );

    foreach( $matches[0] as $crawled_url ) {
        $parse = parse_url( $crawled_url );
        if ( count( $domains[ $parse['host'] ] ) < CRAWL_LIMIT_PER_DOMAIN && !in_array( $crawled_url, $urls ) ) {
            sleep( 1 );
            crawl( $crawled_url );
        }
    }
}

在此先感谢您-我将不胜感激所有帮助。

score 2 · Accepted Answer

幸运与否，PHP 不支持多线程。您可以做的是实现异步模式，但这意味着您必须忘记漂亮的单行功能file_get_contents并切换到最低级别的页面读取（fsockopen然后在非阻塞模式下手动执行所有写入和读取，让其他人执行他们在特定动作需要等待时工作），请参见此处的示例代码。

php - 使用多线程改进网络爬虫/蜘蛛

1 回答 1

Related

Reference