3

我已经使用 Google Dataproc 几个星期了,自从我开始使用以来,我遇到了取消和停止作业的问题。

似乎除了在集群设置中创建的服务器之外,还必须有一些服务器来跟踪和监督作业。

当我在开发控制台中点击停止时,我从来没有一个进程可以在没有错误的情况下真正停止。微调器只是不停地旋转和旋转。

集群重启或停止什么都不做,即使停止了几个小时。

只有当集群被完全删除时,作业才会消失......(但等等还有更多!)如果您创建一个具有相同设置的新集群,在之前集群的作业被删除之前,旧作业将在新集群上启动!!!

我已经看到由于 OOM 错误而自行终止的作业在集群重新启动后自行重新启动!(我这边没有编码这种容错)

如何强制停止 Dataproc 作业?(gcloud beta dataproc jobs kill不起作用)

有谁知道这些看似相关的问题是怎么回事?

是否有特殊方法可以关闭 Spark 作业以避免这些问题?

4

1 回答 1

1

作业继续运行

在某些情况下,错误未成功报告给 Cloud Dataproc 服务。因此,如果一个作业失败,它似乎会永远运行,即使它(可能)在后端失败。在接下来的 1-2 周内,即将发布的 Dataproc 版本应该会解决此问题。

重新启动后开始作业

这将是无意的和不可取的。我们试图复制这个问题,但不能。如果有人可以可靠地复制它,我们想知道,以便我们可以修复它!这可能(可证明)与上述作业失败但似乎正在运行的问题有关,即使在集群重新启动后也是如此。

最好的关机方式

理想情况下,关闭 Cloud Dataproc 集群的最佳方法是终止集群并启动一个新集群。如果这会有问题,您可以尝试批量重启 Compute Engine 虚拟机;但是,创建新集群会容易得多。

于 2015-11-16T17:32:04.320 回答