hadoop - Twitter Storm v/s Apache Hadoop

Question

如果有人能解释一下Twitter Storm 和 Apache Hadoop 之间的架构差异，那就太好了？我正在寻找一些超越实时 v/s 批处理的内部信息。由于这两种技术在为 Storm 编写拓扑或在 Hadoop 上的 map-reduce 方面非常相似，在 Hadoop 的任务跟踪器/作业跟踪器和 Storm 的等效 nimbus/supervisor 方面，在 Hadoop 分区和等效洗牌方面（随机，字段等）在 Storm 等上（如果我说 Storm 在内部使用消息队列在 spouts/bolt 之间传输数据，这与 Hadoop 的情况不完全一样，因为其中创建了中间文件，因此是 I/O涉及。）

编辑：

我已经研究了Apache Storm 与 Hadoop 相比的问题，但接受的答案让我渴望了解的不仅仅是用例，即实时 v/s 批处理。

score 7 · Accepted Answer

主要区别在于 Storm 可以实时处理 Tupple 的流（传入数据），而 Hadoop 可以使用 MapReduce 作业进行批处理。

它们都以分布式方式处理数据，但是使用storm，您可以进行实时分析，而您必须等待mapreduce作业完成才能使用结果。

score 3 · Accepted Answer

Nathan Marz（Storm 的创建者）正在写一本关于大数据的书，他在其中讨论了如何使用 Hadoop、Storm 和其他技术创建大数据系统。

这本书正在讨论“The Lambda Architecture”。查看 Nathan Marz 本人的这张幻灯片：大数据中的失控复杂性......以及阻止它的计划

hadoop - Twitter Storm v/s Apache Hadoop

2 回答 2

Related

Reference