0

试图弄清楚如何从 Apache Spark Streaming 作业输出的 HDFS 导出数据。下图定义了解决方案架构:

解决方案架构

Apache Spark 在 AWS EMR 集群中运行流作业并将结果存储在 HDFS 中。流式作业每小时使用窗口函数收集一次数据并执行计算。我需要将这些结果导出到 S3 和 RDS,这可以通过运行 S3Distcp 和 Sqoop 命令轻松完成,但是我希望在每次计算完成后准确运行这些结果。我想使用 cron 作业以外的其他东西更优雅地完成此操作。

有任何想法吗?

谢谢

4

1 回答 1

1

您可以将消息发布到 SQS 队列并在 lambda 中完成您的工作。

于 2018-05-02T11:25:14.083 回答