我已经使用 Google Dataproc 几个星期了,自从我开始使用以来,我遇到了取消和停止作业的问题。
似乎除了在集群设置中创建的服务器之外,还必须有一些服务器来跟踪和监督作业。
当我在开发控制台中点击停止时,我从来没有一个进程可以在没有错误的情况下真正停止。微调器只是不停地旋转和旋转。
集群重启或停止什么都不做,即使停止了几个小时。
只有当集群被完全删除时,作业才会消失......(但等等还有更多!)如果您创建一个具有相同设置的新集群,在之前集群的作业被删除之前,旧作业将在新集群上启动!!!
我已经看到由于 OOM 错误而自行终止的作业在集群重新启动后自行重新启动!(我这边没有编码这种容错)
如何强制停止 Dataproc 作业?(gcloud beta dataproc jobs kill
不起作用)
有谁知道这些看似相关的问题是怎么回事?
是否有特殊方法可以关闭 Spark 作业以避免这些问题?