我一直在阅读有关Storm的信息,并在使用 Storm-starter 中的示例。
我想我明白了这个概念,它非常适用于许多情况。我有一个我想做的测试项目来了解更多关于这方面的信息,但我想知道 Storm 是否真的适合这个。
我遇到的概念问题是“流”定义。似乎 Storms 将作为订阅流并实时处理它的魅力,但我并没有真正的流,而是我想要处理的有限数据集合。
我知道这有 hadoop,但我对 Storm 的实时功能以及编写 Storm 的 Nathan 在他的演讲中提到的其他有趣点很感兴趣。
所以我想知道,人们是否编写 Spout 来轮询非流 API,然后区分结果可能是为了模拟流?
第二个重点是,似乎 Storm 拓扑在中断之前永远不会完成处理,这同样不适用于我的情况。我希望我的拓扑知道,一旦我的有限源数据列表完成,处理就可以终止并可以发出最终结果。
那么,从 Storm 的角度来看,这一切都有意义吗?还是我看错了?如果是这样,对于这种实时并行计算需求,您提出了哪些替代方案?
谢谢!