我曾在 Storm 和 Spark 上工作过,但 Samza 是相当新的。
我不明白为什么在 Storm 已经在那里进行实时处理时引入了 Samza。Spark 在内存中提供近乎实时的处理,并具有其他非常有用的组件,例如 graphx 和 mllib。
Samza 带来了哪些改进以及可能的进一步改进?
我曾在 Storm 和 Spark 上工作过,但 Samza 是相当新的。
我不明白为什么在 Storm 已经在那里进行实时处理时引入了 Samza。Spark 在内存中提供近乎实时的处理,并具有其他非常有用的组件,例如 graphx 和 mllib。
Samza 带来了哪些改进以及可能的进一步改进?
这是对差异和利弊的一个很好的总结。
我只想补充一点,实际上并不是什么新东西的 Samza 带来了一定的简单性,因为它坚持使用 Kafka 作为其后端,而其他人则试图以简单为代价变得更通用。Samza 是由创建 Kafka 的同一个人开创的,他们也是Kappa 架构背后的同一个人——主要是 LinkedIn 的 Jay Kreps。这很酷。
此外,使用 Samza 的实时流、Spark Streaming 中的微批处理(与 Spark 不完全相同)以及 Storm 中的带有元组的 spout 和 bolt 之间的编程模型完全不同。
这些都不是“更好的”。这完全取决于您的用例、团队的实力、API 如何与您的心智模型相匹配、支持质量等。
您还忘记了Apache Flink和 Twitter 的Heron,因为 Storm 开始让他们失望了。话又说回来,很少有人需要以 Twitter 的规模运营。