我的用例是定期处理 S3 访问日志(具有这 18 个字段)并推送到 RDS 中的表。我正在使用 AWS 数据管道来执行此任务,以便每天运行以处理前一天的日志。
我决定将任务分为两个活动 1. Shell 命令活动:处理 s3 访问日志并创建 csv 文件 2. Hive 活动:从 csv 文件读取数据并插入 RDS 表。
我的输入 s3 存储桶有很多日志文件,因此由于暂存时出现内存不足错误,第一个活动失败。但是我不想暂存所有日志,暂存前一天的日志对我来说就足够了。我在互联网上搜索,但没有得到任何解决方案。我如何做到这一点?我的解决方案是最佳解决方案吗?是否存在比这更好的解决方案?任何建议都会有所帮助
提前致谢