hadoop - 用于聚合各种属性的最佳技术堆栈

Question

我们正在开发一个平台，该平台可以对图形中的实体流进行建模。系统必须回答这样的问题：有多少具有这些属性的实体位于图上的给定节点，节点上的流入量是多少，节点上的流出量是多少等。流数据以流的形式馈送到系统。我们正在考虑打破时间桶（比如 5 分钟）中的流数据，并针对不同的属性预先计算各种聚合，并将聚合存储在 DynamoDB 中以服务查询。

对此，我们正在评估以下选项：

EMR：将流数据放入 AWS -S3/DynamoDB 运行 Map Reduce/hive 作业
将最近的数据放入 AWS-RDS，通过 sql 计算聚合
Akka：它是一个通过 Actors 和消息传递构建分布式应用程序的框架。

如果有人从事过类似的用例或使用过上述任何技术，请告诉我哪种方法最适合我们的用例。

score 0 · Accepted Answer

我已经使用 EMR 在 S3 中处理数据......效果很好。最好的部分是您可以启动适合工作负载的各种大小的 hadoop 集群。

您可能想查看Storm进行流处理

我还在这里收集大数据工具列表：http: //hadoopilluminated.com/hadoop_book/Bigdata_Ecosystem.html

score 0 · Accepted Answer

最终解决方案采用了 AWS Redshift，驱动原因是高速数据摄取的需求，Redshift 通过 COPY 命令提供。

Hadoop 旨在有效地存储数据，但它不保证亚秒级的 SLA 用于摄取，也不提供数据何时可用于 MR 作业的 SLA，这是我们不使用 EMR 的主要原因或一般的 Hadoop。

hadoop - 用于聚合各种属性的最佳技术堆栈

2 回答 2

Related

Reference