2

我有一个带有 2 个工作节点 (n1s2) 的 Dataproc 集群。有一个外部服务器在一小时内提交大约 360 个 Spark 作业(每次提交之间有几分钟的间隔)。第一项工作成功完成,但随后的工作卡住了,根本不继续。

每个作业都会处理一些时间序列数字并写入 Cassandra。而在集群完全空闲的情况下,所花费的时间通常是 3-6 分钟。

我觉得这可以通过扩展集群来解决,但对我来说会变得非常昂贵。最好地解决这个用例的其他选择是什么?

4

1 回答 1

1

在 2 个工作节点集群上运行 300 多个并发作业听起来并不可行。您首先要估计每个作业需要多少资源(CPU、内存、磁盘),然后为集群大小制定计划。YARN 指标,如可用 CPU、可用内存,尤其是挂起的内存,将有助于识别资源不足的情况。

于 2020-11-04T19:42:22.400 回答