运行
YARN集群模式
应用
- Spark 结构化流
- 从 Kafka 主题中读取数据
关于 Kafka 话题
- 1 个具有 4 个分区的主题 - 现在。(可以更改分区数)
- 每 1 秒在主题中添加最多 2000 条记录。
我发现Kafka主题分区的数量与火花执行器的数量(1:1)相匹配。
所以,就我而言,到目前为止我所知道的,4 个 spark executor 是我认为的解决方案。
但我担心数据吞吐量——能保证 2000 rec/sec 吗?
是否有关于在火花结构化流中设置正确配置的任何指导或建议?
特别是spark.executor.cores
,spark.executor.instances
或者关于执行者的东西。