0

我正在使用 PHP 和 cURL 来抓取单个网站页面的 html。通过实验,我发现我的代码仅在我指定 10 个或更少的 URL 时才有效$nodes array(参见代码示例)。我需要一次抓取大约 100 页并将源代码保存到文件中。这可以使用 cURLS 内置函数之一来完成吗?

这是我目前正在使用的代码:

function getHTML(){

$nodes = array(

'http://www.example.com/page1.html',
'http://www.example.com/page2.html',
'http://www.example.com/page3.html',
'http://www.example.com/page4.html',
'http://www.example.com/page5.html',
'http://www.example.com/page6.html',
'http://www.example.com/page7.html',
'http://www.example.com/page8.html',
'http://www.example.com/page9.html',
'http://www.example.com/page10.html',
'http://www.example.com/page11.html',
'http://www.example.com/page12.html',
'http://www.example.com/page13.html',
'http://www.example.com/page14.html',
'http://www.example.com/page15.html',
'http://www.example.com/page16.html',
'http://www.example.com/page17.html',
'http://www.example.com/page18.html',
'http://www.example.com/page19.html',
'http://www.example.com/page20.html' ...and so on...

);


$node_count = count($nodes);

$curl_arr = array();
$master = curl_multi_init();

for($i = 0; $i < $node_count; $i++)
{
    $url =$nodes[$i];
    $curl_arr[$i] = curl_init($url);
    curl_setopt($curl_arr[$i], CURLOPT_RETURNTRANSFER, true);
    curl_multi_add_handle($master, $curl_arr[$i]);
}

do {
    curl_multi_exec($master,$running);
} while($running > 0);

echo "results: ";
for($i = 0; $i < $node_count; $i++)
{
    $results = curl_multi_getcontent  ( $curl_arr[$i]  );
    echo( $i . "\n" . $results . "\n");
echo 'done';

file_put_contents('SCRAPEDHTML.txt',$results, FILE_APPEND);

}
}

提前致谢

4

3 回答 3

0

我尝试在我的项目中滚动 curl 库。我希望它可能会有所帮助。

http://code.google.com/p/rolling-curl/source/browse/trunk/RollingCurl.php

于 2012-10-22T12:11:42.517 回答
0

我认为是超过了php执行时间。您可以尝试插入“set_time_limit(300);” 在包含函数 getHTML 的 php 文件的顶部。数字“300”表示这个 php 执行时间是 300 秒。

于 2012-10-22T12:01:15.990 回答
0

将数组分成 10 个块,然后curl_multi多次执行循环

$perRequest = 10;
for($i = 0; $i < count($nodes); $i += $perRequest)
{
    $currentNodes = array_slice($nodes, 0, $perRequest);

    // Normal curl_multi code using $currentNodes
}
于 2012-10-22T11:46:19.040 回答