apache-spark - 结构化流式作业不使用所有工作人员

Question

我有一个 Spark 2.0.2 结构化流作业连接到 Apache Kafka 数据流作为源。这项工作从 Kafka 中获取 Twitter 数据 (JSON)，并使用 CoreNLP 对数据进行注释，例如情绪、词性标记等。它与local[*]master 配合得很好。但是，当我设置一个独立的 Spark 集群时，只有一个工作人员习惯于处理数据。我有两个具有相同能力的工人。

提交我缺少的工作时是否需要设置一些东西。我试过--num-executors在我的spark-submit命令中设置，但我没有运气。

提前感谢您指向正确方向的指针。

score 0 · Accepted Answer

我最终创建了具有更多分区的 kafka 源流。这似乎将处理部分加快了 9 倍。Spark 和 kafka 有很多旋钮。有很多要筛选的...查看Kafka 主题分区到 Spark 流

apache-spark - 结构化流式作业不使用所有工作人员

1 回答 1

Related

Reference