我想处理 Amazon CloudFront 使用 Amazon Elastic MapReduce 创建的访问日志。
我只需要一些关于从云端加载不同文件的次数的简单统计信息,所以我认为我应该为此编写一个简单的 PIG 脚本。
我遇到的第一个问题是云端写入 gzip 压缩的日志,据我所知,我无法在猪中读取 .gz?
关于我应该如何做到这一点的任何建议?我对弹性 mapreduce 非常陌生,因此欢迎任何有关如何构建此类工作的提示。
我想处理 Amazon CloudFront 使用 Amazon Elastic MapReduce 创建的访问日志。
我只需要一些关于从云端加载不同文件的次数的简单统计信息,所以我认为我应该为此编写一个简单的 PIG 脚本。
我遇到的第一个问题是云端写入 gzip 压缩的日志,据我所知,我无法在猪中读取 .gz?
关于我应该如何做到这一点的任何建议?我对弹性 mapreduce 非常陌生,因此欢迎任何有关如何构建此类工作的提示。
抱歉,默认情况下这是有效的。在处理它们之前无需解压缩日志。我的错。
您可能对Qloudstat感兴趣。我们将提供 CloudFront 访问日志的统计数据作为服务。