我现在在 Python 中使用 kafka。想知道是否需要 Spark Kafka,或者我们可以通过 pyKafka 使用 kafka。
我担心 Spark 在此过程中会产生开销(pyspark),如果我们不使用任何 spark 函数,则只需要 Kafka 流。
使用 Pyspark 和 kafka spark 有哪些不便之处?
我现在在 Python 中使用 kafka。想知道是否需要 Spark Kafka,或者我们可以通过 pyKafka 使用 kafka。
我担心 Spark 在此过程中会产生开销(pyspark),如果我们不使用任何 spark 函数,则只需要 Kafka 流。
使用 Pyspark 和 kafka spark 有哪些不便之处?
正如评论中所提到的,这完全取决于手头的用例,但是几个月前我遇到了同样的情况,我将尝试转移我的知识以及我如何决定转移到 kafka-streams 而不是 spark -流媒体。
在我的用例中,我们只使用 spark 从 kafka 进行实时流式传输,而不进行任何类型的 map-reduce、窗口化、过滤、聚合。
鉴于上述情况,我根据 3 个维度进行了比较:
下图显示了我为说服我的团队迁移以使用 kafka-streams 并抑制 spark 所做的比较表,图中未添加成本,因为它完全取决于您的集群大小(HeadNode-WorkerNodes)。
VI 注意: 同样,这是基于你的情况,我只是试图给你一个指导如何进行比较,但 spark 本身有很多好处,这与在这个问题中描述它无关。