apache-spark - 在 Dataproc 中运行 300 多个并发 Spark 作业的最佳方法？

Question

我有一个带有 2 个工作节点 (n1s2) 的 Dataproc 集群。有一个外部服务器在一小时内提交大约 360 个 Spark 作业（每次提交之间有几分钟的间隔）。第一项工作成功完成，但随后的工作卡住了，根本不继续。

每个作业都会处理一些时间序列数字并写入 Cassandra。而在集群完全空闲的情况下，所花费的时间通常是 3-6 分钟。

我觉得这可以通过扩展集群来解决，但对我来说会变得非常昂贵。最好地解决这个用例的其他选择是什么？

score 1 · Accepted Answer

在 2 个工作节点集群上运行 300 多个并发作业听起来并不可行。您首先要估计每个作业需要多少资源（CPU、内存、磁盘），然后为集群大小制定计划。YARN 指标，如可用 CPU、可用内存，尤其是挂起的内存，将有助于识别资源不足的情况。

1 回答 1