我在 Amazon S3 上有许多 LZO 压缩的日志文件,我想从 PHP 中读取这些文件。AWS SDK 提供了一个不错的StreamWrapper来有效地读取这些文件,但是由于文件是压缩的,我需要先解压缩内容才能处理它。
我已经安装了允许我这样做的PHP-LZO 扩展lzo_decompress($data)
,但由于我处理的是流而不是完整的文件内容,我假设我需要一次使用一个 LZO 压缩块的字符串。换句话说,我想做类似的事情:
$s3 = S3Client::factory( $myAwsCredentials );
$s3->registerStreamWrapper();
$stream = fopen("s3://my_bucket/my_logfile", 'r');
$compressed_data = '';
while (!feof($stream)) {
$compressed_data .= fread($stream, 1024);
// TODO: determine if we have a full LZO block yet
if (contains_full_lzo_block($compressed_data)) {
// TODO: extract the LZO block
$lzo_block = get_lzo_block($compressed_data);
$input = lzo_decompress( $lzo_block );
// ...... and do stuff to the decompressed input
}
}
fclose($stream);
这两个TODO
s 是我不确定该怎么做的地方:
- 检查数据流以确定我是否有完整的 LZO 块
- 提取此块进行解压
由于压缩是由 Amazon (s3distCp) 完成的,我无法控制块大小,所以我可能需要检查传入流以确定块有多大——这是一个正确的假设吗?
(理想情况下,我会直接在流上使用自定义 StreamFilter,但我无法找到以前这样做过的人)