问题标签 [spark-operator]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
24 浏览

apache-spark - Kubernetes 上的 Spark 作业 - 执行程序被终止

我们正在使用 Spark 运算符在 Kubernetes(EKS 非 EMR)上运行 Spark 作业。一段时间后,一些 executor 得到 SIGNAL TERM,一个来自 executor 的示例日志:

在驱动端,2分钟后驱动停止接收心跳,然后决定杀死执行者

我试图了解我们是否在 Kubernetes 级别上超出了某些资源限制,但找不到类似的东西。我可以寻找什么来了解 Kubernetes 杀死执行程序的原因?

跟进:

我错过了驱动程序端的日志消息:

然后在执行者方面:

我查看了哪个类正在编写 Disabling executor log 消息并找到了这个 class KubernetesDriverEndpoint,似乎onDisconnected为所有这些 executors 调用了该方法,并且该方法调用disableExecutorDriverEndpoint 所以现在的问题是为什么这些 executors 被认为是断开连接的。看看这个网站的解释 https://books.japila.pl/apache-spark-internals/scheduler/DriverEndpoint/#ondisconnected-callback 据说那里

远程 RPC 客户端已解除关联。可能是由于容器超过阈值或网络问题。检查驱动程序日志以获取 WARN 消息。

但是我在驱动程序端找不到任何 WARN 日志,有什么建议吗?

0 投票
0 回答
15 浏览

kubernetes - 使用 helm 图表的气流中的 kubernetes 集群连接错误

如何在 kubernetes 环境中对服务中的气流运行 kubernetes spark 运算符?感谢您让我知道问题所在


kubernetes 集群连接信息

这是包含调用 kubernetes spark operator 的气流 Dag 文件。

当我运行气流 dag 时,它会回复一条消息,说找不到 kubernetes 的 apiversion。