我想询问我正在尝试使用 AWS 中的数据管道完成的处理任务,但我无法让它工作。
基本上,我有代表 2 个 MySQL 数据库的 2 个数据节点,应该定期从其中提取数据并放置在 S3 存储桶中。此复制活动运行良好,每天选择已添加的每一行,假设今天 - 1 天。
但是,包含作为 CSV 收集的数据的存储桶应该成为 EMR 活动的输入,该活动将处理这些文件并聚合信息。问题是我不知道如何删除或移动已处理的文件到不同的存储桶,所以我不必每天处理所有文件。
为了澄清,我正在寻找一种方法来从管道中移动或删除 S3 存储桶中已处理的文件。我可以这样做吗?有没有其他方法我只能根据命名约定或其他方式处理 EMR 活动中的某些文件?