apache-spark - 如何在 5 分钟间隔内对 spark 流产生的 hdfs 上的每小时聚合数据运行 Spark 或 Mapreduce 作业

Question

我有一个场景，我使用 spark 流从 Kinesis 服务收集数据，使用 https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html

现在在流媒体中，我正在对数据进行一些聚合并发送到 hdfs。到目前为止我能够完成它..现在我想要一种方法，我可以收集所有最后一小时数据或每小时数据并提供给新的 spark 作业或 mapreduce 作业并再次进行一些聚合并发送到目标分析服务。

查询： 1. 如何从 hdfs 获取每小时聚合数据到下一个 spark 作业或 mapreduce 或任何数据处理。在我们从火花发出之前，我们需要一些分区吗？2.我们可以为此使用亚马逊数据管道吗？但是假设如果我们在 /user/hadoop/ 文件夹上发出没有分区的数据。数据管道如何理解它需要选择最后一小时的数据。我们可以通过时间戳等对文件夹名称应用一些限制吗？

score 1 · Accepted Answer

我不确定您的用例。但是数据管道有一个与 kinesis 配合使用的样本。它可能会给你一个提示。

https://github.com/awslabs/data-pipeline-samples/tree/master/samples/kinesis

score 0 · Accepted Answer

如果您使用的是 Mesos 集群管理器，您可以查看 chronos 以进行作业调度http://nerds.airbnb.com/introducing-chronos/

否则，对于 spark 独立集群，您可以简单地通过 chrontab 或从外部应用程序进行调度。

apache-spark - 如何在 5 分钟间隔内对 spark 流产生的 hdfs 上的每小时聚合数据运行 Spark 或 Mapreduce 作业

2 回答 2

Related

Reference