kylo - 凯洛 | 可视化查询 Spark 作业 - 集群与客户端模式

Question

默认情况下，可视化查询 Spark 作业在本地模式下运行。当您将 Kylo 运行到具有更大数据块的生产环境时，建议的 Visual Query 设置是什么？

谢谢沙市

score 3 · Accepted Answer

为此，您可以在此处编辑：-

/opt/kylo/kylo-services/bin/run-kylo-spark-shell.sh

在“火花提交”之后。

score 0 · Accepted Answer

我尝试在 yarn-cluster 模式下运行视觉查询火花作业，它似乎工作正常。以下是我对每种模式的观察。

本地模式：它工作得很好，但它给边缘节点带来了压力，因为它只从边缘节点寻找内存和核心。

yarn-client：为了避免边缘节点限制，我们配置可视化查询运行纱线客户端模式。但是有一天我们遇到了磁盘故障并且视觉查询失败，因为它抛出了未找到文件的异常。令人惊讶的是，它并没有在不同的节点上寻找另一个文件副本（HDFS 复制概念）。

yarn-cluster ：这种模式给了我们更好的性能，我们能够避免文件未找到异常。但我们面临的唯一挑战是视觉查询的设计方法。当您启动 spark shell 服务器进行可视化查询时，它会创建一个 spark 上下文，并且该上下文永远不会消失，直到您杀死您的 spark 服务器应用程序。受此影响，在纱线资源管理器 UI 上，您总是会发现 thinkbig spark 服务器正在运行，并且在您终止应用程序之前它永远不会释放资源。

也许我们应该尝试增强视觉查询，因为它是 Kylo 中最酷的功能之一。

kylo - 凯洛 | 可视化查询 Spark 作业 - 集群与客户端模式

2 回答 2

Related

Reference