0

我有一个场景,我使用 spark 流从 Kinesis 服务收集数据,使用 https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html

现在在流媒体中,我正在对数据进行一些聚合并发送到 hdfs。到目前为止我能够完成它..现在我想要一种方法,我可以收集所有最后一小时数据或每小时数据并提供给新的 spark 作业或 mapreduce 作业并再次进行一些聚合并发送到目标分析服务。

查询: 1. 如何从 hdfs 获取每小时聚合数据到下一个 spark 作业或 mapreduce 或任何数据处理。在我们从火花发出之前,我们需要一些分区吗?2.我们可以为此使用亚马逊数据管道吗?但是假设如果我们在 /user/hadoop/ 文件夹上发出没有分区的数据。数据管道如何理解它需要选择最后一小时的数据。我们可以通过时间戳等对文件夹名称应用一些限制吗?

4

2 回答 2

1

我不确定您的用例。但是数据管道有一个与 kinesis 配合使用的样本。它可能会给你一个提示。

https://github.com/awslabs/data-pipeline-samples/tree/master/samples/kinesis

于 2015-08-25T20:00:34.727 回答
0

如果您使用的是 Mesos 集群管理器,您可以查看 chronos 以进行作业调度http://nerds.airbnb.com/introducing-chronos/

否则,对于 spark 独立集群,您可以简单地通过 chrontab 或从外部应用程序进行调度。

于 2015-08-21T13:40:02.413 回答