1

我正在尝试列出 20,000 多个域名并检查它们是否“活着”。我真正需要的只是一个简单的 http 代码检查,但我不知道如何使用 curl_multi。在我使用的单独脚本上,我有以下函数,它同时检查一批 1000 个域并返回 json 响应代码。也许这可以修改为只获取http响应代码而不是页面内容?

(对不起,我无法将其粘贴为一个很好的代码块,而无需逐行添加 4 个空格...(也尝试跳过一行并添加 8 个空格)

$dotNetRequests = 域数组...

//loop through arrays
foreach(array_chunk($dotNetRequests, 1000) as $Netrequests) {
    $results = checkDomains($Netrequests);
    $NetcurlRequest = array_merge($NetcurlRequest, $results);
}

function checkDomains($data) {

// array of curl handles
$curly = array();
// data to be returned
$result = array();

// multi handle
$mh = curl_multi_init();

// loop through $data and create curl handles
// then add them to the multi-handle
foreach ($data as $id => $d) {

$curly[$id] = curl_init();

$url = (is_array($d) && !empty($d['url'])) ? $d['url'] : $d;
curl_setopt($curly[$id], CURLOPT_URL,            $url);
curl_setopt($curly[$id], CURLOPT_HEADER,         0);
curl_setopt($curly[$id], CURLOPT_RETURNTRANSFER, 1);

// post?
if (is_array($d)) {
  if (!empty($d['post'])) {
    curl_setopt($curly[$id], CURLOPT_POST,       1);
    curl_setopt($curly[$id], CURLOPT_POSTFIELDS, $d['post']);
  }
}

curl_multi_add_handle($mh, $curly[$id]);
  }

  // execute the handles
  $running = null;
  do {
    curl_multi_exec($mh, $running);
  } while($running > 0);

  // get content and remove handles
  foreach($curly as $id => $c) {
     // $result[$id] = curl_multi_getcontent($c);
// if($result[$id]) {
if (curl_multi_getcontent($c)){
    //echo "yes";
    $netName = $data[$id];
    $dName = str_replace(".net", ".com", $netName);
    $query = "Update table1 SET dotnet = '1' WHERE Domain = '$dName'";
    mysql_query($query);
}
curl_multi_remove_handle($mh, $c); 
}

// all done
 curl_multi_close($mh);

return $result;
} 
4

2 回答 2

1

在任何其他语言中,您都会对这种操作进行线程化...

https://github.com/krakjoe/pthreads

你也可以在 PHP 中使用 :)

我会建议几个工人而不是 20,000 个单独的线程......并不是说 20,000 个线程超出了可能性的范围 - 它不是......但这不会很好地利用资源,我会像你一样做现在有 20 名工人每人获得 1000 个域的结果......我假设你不需要我给出获取响应代码的例子,我相信 curl 会给你,但它可能是矫枉过正使用 curl 是因为你不需要它的线程功能:我会 fsockopen 端口 80,fprintf GET HTTP/1.0/\n\n,fgets 第一行并关闭连接......如果你要做这一切那时我也会使用 Connection: close 以便接收机器不会保持不必要的连接......

于 2012-09-20T16:22:19.637 回答
0

此脚本非常适合使用 PHP 处理大量同时 cURL 请求。使用它,我可以在几分钟内解析 50k 个域!

https://github.com/petewarden/ParallelCurl/

于 2012-09-23T16:50:39.810 回答