0

我现在在 Python 中使用 kafka。想知道是否需要 Spark Kafka,或者我们可以通过 pyKafka 使用 kafka。

我担心 Spark 在此过程中会产生开销(pyspark),如果我们不使用任何 spark 函数,则只需要 Kafka 流。

使用 Pyspark 和 kafka spark 有哪些不便之处?

4

1 回答 1

0

正如评论中所提到的,这完全取决于手头的用例,但是几个月前我遇到了同样的情况,我将尝试转移我的知识以及我如何决定转移到 kafka-streams 而不是 spark -流媒体。

在我的用例中,我们只使用 spark 从 kafka 进行实时流式传输,而不进行任何类型的 map-reduce、窗口化、过滤、聚合。

鉴于上述情况,我根据 3 个维度进行了比较:

  1. 技术性
  2. 开发运维
  3. 成本

下图显示了我为说服我的团队迁移以使用 kafka-streams 并抑制 spark 所做的比较表,图中未添加成本,因为它完全取决于您的集群大小(HeadNode-WorkerNodes)。

VI 注意: 同样,这是基于你的情况,我只是试图给你一个指导如何进行比较,但 spark 本身有很多好处,这与在这个问题中描述它无关。

在此处输入图像描述

于 2018-03-28T11:35:54.187 回答