我使用 Hadoop 构建了一个用于在分布式环境中搜索类似图像存储的应用程序。但是Hadoop不支持实时处理,所以响应时间长。我知道Storm是大数据分析应用的另一个框架。但是我很困惑我们是否可以使用 Storm 来实现这种应用程序。
有没有人建议什么样的应用程序可以有效地使用 Storm 框架。
我使用 Hadoop 构建了一个用于在分布式环境中搜索类似图像存储的应用程序。但是Hadoop不支持实时处理,所以响应时间长。我知道Storm是大数据分析应用的另一个框架。但是我很困惑我们是否可以使用 Storm 来实现这种应用程序。
有没有人建议什么样的应用程序可以有效地使用 Storm 框架。
Storm 是一个非常可扩展、快速、容错的分布式计算开源系统,特别关注流处理。Storm 擅长事件处理和增量计算,实时计算数据流的滚动指标
事件流处理是 Storm 的主要优势。
通常 Hadoop 用于批处理。但是Storm是实时处理的 Hadoop,而Spark是具有内存数据存储的所有人的分布式处理
看看这个Storm and Spark和Stack 比较链接
编辑:
我对这个问题的解决方案
1)将图像存储在 CMS(内容管理系统)中,CDN 分布在多个网络中,而不是在HDFS或NoSQL数据库中)
2) 在HBase表中存储Image Id、Image Name、MD5SUM、Image Location元信息
3) 使用 Spark 和 HBase 进行图像数据处理,例如通过检查MD5SUM删除重复图像