4

我在 Amazon S3 上有许多 LZO 压缩的日志文件,我想从 PHP 中读取这些文件。AWS SDK 提供了一个不错的StreamWrapper来有效地读取这些文件,但是由于文件是压缩的,我需要先解压缩内容才能处理它。

我已经安装了允许我这样做的PHP-LZO 扩展lzo_decompress($data),但由于我处理的是流而不是完整的文件内容,我假设我需要一次使用一个 LZO 压缩块的字符串。换句话说,我想做类似的事情:

$s3 = S3Client::factory( $myAwsCredentials );
$s3->registerStreamWrapper();

$stream = fopen("s3://my_bucket/my_logfile", 'r');

$compressed_data = '';
while (!feof($stream)) {
    $compressed_data .= fread($stream, 1024);

    // TODO: determine if we have a full LZO block yet
    if (contains_full_lzo_block($compressed_data)) {

        // TODO: extract the LZO block
        $lzo_block = get_lzo_block($compressed_data);

        $input = lzo_decompress( $lzo_block );
        // ...... and do stuff to the decompressed input
    }

}
fclose($stream);

这两个TODOs 是我不确定该怎么做的地方:

  1. 检查数据流以确定我是否有完整的 LZO 块
  2. 提取此块进行解压

由于压缩是由 Amazon (s3distCp) 完成的,我无法控制块大小,所以我可能需要检查传入流以确定块有多大——这是一个正确的假设吗?

(理想情况下,我会直接在流上使用自定义 StreamFilter,但我无法找到以前这样做过的人)

4

1 回答 1

1

好的,通过 PHP 执行命令可以通过多种不同的方式完成,例如:

$command = 'gunzip -c /path/src /path/dest';
$escapedCommand = escapeshellcmd($command);
system($escapedCommand);

或者也

shell_exec('gunzip -c /path/src /path/dest');

会做的工作。现在是执行什么命令的问题,在 Linux 下有一个很好的命令行工具,叫做 lzop,它可以提取或压缩 lzop 文件。

您可以通过以下方式使用它:

lzop -dN sources.lzo

所以你最终的代码可能很简单:

shell_exec('lzop -dN s3://my_bucket/my_logfile');
于 2013-12-16T13:31:07.893 回答