1

我有一个网站抓取项目。看看这段代码:

<?php
include('db.php');
$r = mysql_query("SELECT * FROM urltable");
$rows=  mysql_num_rows($r);
for ($j = 0; $j <$rows; ++$j) {
$row = mysql_fetch_row($r);
$html = file_get_contents(mysql_result($r,$j,'url'));
$file = fopen($j.".txt", "w");
fwrite($file,$html);
fclose($file);
}
?>

我有一个网址列表。此代码意味着,使用每个 url 中的内容(HTML)制作文本文件。

运行此代码时,我每秒只能制作一个文件[每个文件大小~ 20KB]。我的互联网提供 3mbps 的下载速度,但我无法通过此代码利用该速度。

我该如何加快速度file_get_contents()?或者如何使用线程或配置 php.ini 文件或任何其他方法加速此代码?

4

2 回答 2

0

您可以使用流添加一些控件。但是如果可以的话,cURL 应该会好得多。

$stream_options = array(
    'http' => array(
    'method' => 'GET',
    'header' => 'Accept-language: en',
    'timeout' => 30,
    'ignore_errors' => true,
));
$stream_context = stream_context_create($stream_options);
$fc = file_get_contents($url, false, $stream_context);
于 2014-07-13T07:56:32.933 回答
0

由于这不是重复页面上的建议之一,我将在此处添加。

仔细查看 Curl Multi PHP 手册页

它并不完全直截了当,但一旦你让它运行得非常快。基本上,您发出多个 curl 请求,然后在返回时收集返回的数据。它以任何顺序返回,因此需要一些控制。我在数据收集过程中使用了它,将 3-4 小时的处理时间减少到 30 分钟。

唯一的问题可能是您淹没了具有多个请求的站点,并且所有者认为这是一个问题并禁止您访问。但是,在您的进程中添加一些明智的 sleep()'ing,您应该能够将这种可能性降至最低。

于 2013-07-13T09:14:00.167 回答