试图弄清楚如何从 Apache Spark Streaming 作业输出的 HDFS 导出数据。下图定义了解决方案架构:
Apache Spark 在 AWS EMR 集群中运行流作业并将结果存储在 HDFS 中。流式作业每小时使用窗口函数收集一次数据并执行计算。我需要将这些结果导出到 S3 和 RDS,这可以通过运行 S3Distcp 和 Sqoop 命令轻松完成,但是我希望在每次计算完成后准确运行这些结果。我想使用 cron 作业以外的其他东西更优雅地完成此操作。
有任何想法吗?
谢谢