我有一个场景,我使用 spark 流从 Kinesis 服务收集数据,使用 https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html
现在在流媒体中,我正在对数据进行一些聚合并发送到 hdfs。到目前为止我能够完成它..现在我想要一种方法,我可以收集所有最后一小时数据或每小时数据并提供给新的 spark 作业或 mapreduce 作业并再次进行一些聚合并发送到目标分析服务。
查询: 1. 如何从 hdfs 获取每小时聚合数据到下一个 spark 作业或 mapreduce 或任何数据处理。在我们从火花发出之前,我们需要一些分区吗?2.我们可以为此使用亚马逊数据管道吗?但是假设如果我们在 /user/hadoop/ 文件夹上发出没有分区的数据。数据管道如何理解它需要选择最后一小时的数据。我们可以通过时间戳等对文件夹名称应用一些限制吗?