apache-spark - 调度从 HDFS 导出到 S3 的输出

Question

试图弄清楚如何从 Apache Spark Streaming 作业输出的 HDFS 导出数据。下图定义了解决方案架构：

Apache Spark 在 AWS EMR 集群中运行流作业并将结果存储在 HDFS 中。流式作业每小时使用窗口函数收集一次数据并执行计算。我需要将这些结果导出到 S3 和 RDS，这可以通过运行 S3Distcp 和 Sqoop 命令轻松完成，但是我希望在每次计算完成后准确运行这些结果。我想使用 cron 作业以外的其他东西更优雅地完成此操作。

有任何想法吗？

谢谢

score 1 · Accepted Answer

1

您可以将消息发布到 SQS 队列并在 lambda 中完成您的工作。

于 2018-05-02T11:25:14.083 回答

apache-spark - 调度从 HDFS 导出到 S3 的输出

1 回答 1

Related

Reference