我正在尝试在使用 python 的 AWS 平台上创建一个基本的 ETL。在 S3 存储桶(我们称之为“A”)中,我有很多原始日志文件,经过 gzip 压缩。我想要做的是定期(=数据管道)解压缩,由python脚本处理,该脚本将重新格式化每一行的结构,并将其输出到另一个S3存储桶(“B”),最好作为gzips源自 A 中相同 gzip 的相同日志文件,但这不是强制性的。
我编写了它需要做的python脚本(从stdin接收每一行)并输出到stdout(或stderr,如果一行无效。在这种情况下,我希望它被写入另一个桶, “C”)。
我正在摆弄数据管道,尝试运行一个 shell 命令作业,以及一个使用 python 脚本进行排序的 hive 作业。EMR 集群已创建、运行、完成,没有失败或错误,也没有创建日志,我不明白出了什么问题。另外,我希望在处理并写入目标或错误的日志存储桶后删除原始日志。
有没有人有这种配置的经验?和建议的话?