17

我想连接到远程文件并将远程文件的输出写入本地文件,这是我的功能:

function get_remote_file_to_cache()
{

    $the_site="http://facebook.com";

    $curl = curl_init();
    $fp = fopen("cache/temp_file.txt", "w");
    curl_setopt ($curl, CURLOPT_URL, $the_site);
    curl_setopt($curl, CURLOPT_FILE, $fp);

    curl_setopt($curl,  CURLOPT_RETURNTRANSFER, TRUE);

    curl_exec ($curl);

    $httpCode = curl_getinfo($curl, CURLINFO_HTTP_CODE);
    if($httpCode == 404) {
        touch('cache/404_err.txt');
    }else
    {
        touch('cache/'.rand(0, 99999).'--all_good.txt');
    }

    curl_close ($curl);
}

它在“缓存”目录中创建了两个文件,但问题是它没有将数据写入“temp_file.txt”,这是为什么呢?

4

6 回答 6

28

实际上,使用 fwrite 是部分正确的。为了避免大文件的内存溢出问题(超过 PHP 的最大内存限制),您需要设置一个回调函数来写入文件。

注意:我建议创建一个专门用于处理文件下载和文件句柄等的类,而不是使用全局变量,但出于本示例的目的,以下显示了如何启动和运行。

因此,请执行以下操作:

# setup a global file pointer
$GlobalFileHandle = null;

function saveRemoteFile($url, $filename) {
  global $GlobalFileHandle;

  set_time_limit(0);

  # Open the file for writing...
  $GlobalFileHandle = fopen($filename, 'w+');

  $ch = curl_init();
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_FILE, $GlobalFileHandle);
  curl_setopt($ch, CURLOPT_HEADER, 0);
  curl_setopt($ch, CURLOPT_USERAGENT, "MY+USER+AGENT"); //Make this valid if possible
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
  curl_setopt($ch, CURLOPT_BINARYTRANSFER, true);
  curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); # optional
  curl_setopt($ch, CURLOPT_TIMEOUT, -1); # optional: -1 = unlimited, 3600 = 1 hour
  curl_setopt($ch, CURLOPT_VERBOSE, false); # Set to true to see all the innards

  # Only if you need to bypass SSL certificate validation
  curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
  curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);

  # Assign a callback function to the CURL Write-Function
  curl_setopt($ch, CURLOPT_WRITEFUNCTION, 'curlWriteFile');

  # Exceute the download - note we DO NOT put the result into a variable!
  curl_exec($ch);

  # Close CURL
  curl_close($ch);

  # Close the file pointer
  fclose($GlobalFileHandle);
}

function curlWriteFile($cp, $data) {
  global $GlobalFileHandle;
  $len = fwrite($GlobalFileHandle, $data);
  return $len;
}

您还可以创建一个进度回调来显示您正在下载多少/多快,但这是另一个示例,因为它在输出到 CLI 时可能会很复杂。

本质上,这将获取下载的每个数据,并立即将其转储到文件中,而不是先将整个文件下载到内存中。

更安全的方法!当然,您必须确保 URL 正确(将空格转换为 %20 等)并且本地文件是可写的。

干杯,詹姆斯。

于 2014-06-18T05:24:26.867 回答
17

让我们尝试发送 GET 请求到http://facebook.com

$ curl -v http://facebook.com
* 重建网址:http://facebook.com/
* 在 DNS 缓存中未找到主机名
* 尝试 69.171.230.5...
* 连接到 facebook.com (69.171.230.5) 端口 80 (#0)
> 获取/HTTP/1.1
> 用户代理:curl/7.35.0
> 主办方:facebook.com
> 接受:*/*
>
< HTTP/1.1 302 找到
< 位置:https://facebook.com/
< 变化:接受编码
< 内容类型:text/html
< 日期:格林威治标准时间 2015 年 9 月 3 日星期四 16:26:34
< 连接:保持活动
< 内容长度:0
<
* 连接 #0 到主机 facebook.com 保持不变

发生了什么?看来 Facebook 将我们从 重定向http://facebook.com到 secure https://facebook.com/。注意什么是响应正文长度:

内容长度:0

这意味着将写入零字节xxxx--all_good.txt。这就是文件保持为空的原因。

您的解决方案是绝对正确的:

$fp = fopen('file.txt', 'w');
curl_setopt($handle, CURLOPT_FILE, $fp);
curl_setopt($handle, CURLOPT_RETURNTRANSFER, true);

您需要做的就是将 URL 更改为https://facebook.com/.

关于其他答案:

  • @JonGauthier:不,不需要使用fwrite()aftercurl_exec()
  • @doublehelix:不,您不需要CURLOPT_WRITEFUNCTION将内容复制到文件这样简单的操作。
  • @ScottSaunders:touch()如果不存在则创建空文件。我认为这是OP的意图。

说真的,三个答案,每一个都是无效的?

于 2015-02-19T13:17:03.550 回答
11

您需要使用 显式写入文件fwrite,并将您之前创建的文件句柄传递给它:

if ( $httpCode == 404 ) {
    ...
} else {
    $contents = curl_exec($curl);
    fwrite($fp, $contents);
}

curl_close($curl);
fclose($fp);
于 2011-11-01T13:57:48.670 回答
5

在你的问题中,你有

    curl_setopt($curl, CURLOPT_FILE, $fp);

    curl_setopt($curl,  CURLOPT_RETURNTRANSFER, TRUE);

但来自 PHP 的 curl_setopt 文档说明...

It appears that setting CURLOPT_FILE before setting CURLOPT_RETURNTRANSFER doesn't work, presumably because CURLOPT_FILE depends on CURLOPT_RETURNTRANSFER being set.

So do this:

<?php
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_FILE, $fp);
?>

not this:

<?php
curl_setopt($ch, CURLOPT_FILE, $fp);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
?>

...声明“ CURLOPT_FILE 取决于设置的 CURLOPT_RETURNTRANSFER ”。

参考:https ://www.php.net/manual/en/function.curl-setopt.php#99082

于 2020-06-28T02:55:24.030 回答
3

为避免内存泄漏问题:

我也遇到过这个问题。说起来真的很愚蠢,但解决方案是在 CURLOPT_FILE 之前设置 CURLOPT_RETURNTRANSFER!

似乎 CURLOPT_FILE 取决于 CURLOPT_RETURNTRANSFER。

$curl = curl_init();
$fp = fopen("cache/temp_file.txt", "w+");
curl_setopt($curl,  CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($curl, CURLOPT_FILE, $fp);
curl_setopt($curl, CURLOPT_URL, $url);
curl_exec ($curl);
curl_close($curl);
fclose($fp);
于 2019-06-10T16:27:16.670 回答
2

touch()函数不对文件的内容做任何事情。它只是更新修改时间。看看file_put_contents() function

于 2011-11-01T13:59:30.273 回答