0

我们正在开发一个平台,该平台可以对图形中的实体流进行建模。系统必须回答这样的问题:有多少具有这些属性的实体位于图上的给定节点,节点上的流入量是多少,节点上的流出量是多少等。流数据以流的形式馈送到系统。我们正在考虑打破时间桶(比如 5 分钟)中的流数据,并针对不同的属性预先计算各种聚合,并将聚合存储在 DynamoDB 中以服务查询。

对此,我们正在评估以下选项:

  • EMR:将流数据放入 AWS -S3/DynamoDB 运行 Map Reduce/hive 作业

  • 将最近的数据放入 AWS-RDS,通过 sql 计算聚合

  • Akka:它是一个通过 Actors 和消息传递构建分布式应用程序的框架。

    如果有人从事过类似的用例或使用过上述任何技术,请告诉我哪种方法最适合我们的用例。

4

2 回答 2

0

我已经使用 EMR 在 S3 中处理数据......效果很好。最好的部分是您可以启动适合工作负载的各种大小的 hadoop 集群。

您可能想查看Storm进行流处理

我还在这里收集大数据工具列表:http: //hadoopilluminated.com/hadoop_book/Bigdata_Ecosystem.html

于 2013-03-13T23:08:58.040 回答
0

最终解决方案采用了 AWS Redshift,驱动原因是高速数据摄取的需求,Redshift 通过 COPY 命令提供。

Hadoop 旨在有效地存储数据,但它不保证亚秒级的 SLA 用于摄取,也不提供数据何时可用于 MR 作业的 SLA,这是我们不使用 EMR 的主要原因或一般的 Hadoop。

于 2015-08-24T05:15:13.653 回答