默认情况下,可视化查询 Spark 作业在本地模式下运行。当您将 Kylo 运行到具有更大数据块的生产环境时,建议的 Visual Query 设置是什么?
谢谢沙市
为此,您可以在此处编辑:-
/opt/kylo/kylo-services/bin/run-kylo-spark-shell.sh
在“火花提交”之后。
我尝试在 yarn-cluster 模式下运行视觉查询火花作业,它似乎工作正常。以下是我对每种模式的观察。
本地模式:它工作得很好,但它给边缘节点带来了压力,因为它只从边缘节点寻找内存和核心。
yarn-client:为了避免边缘节点限制,我们配置可视化查询运行纱线客户端模式。但是有一天我们遇到了磁盘故障并且视觉查询失败,因为它抛出了未找到文件的异常。令人惊讶的是,它并没有在不同的节点上寻找另一个文件副本(HDFS 复制概念)。
yarn-cluster :这种模式给了我们更好的性能,我们能够避免文件未找到异常。但我们面临的唯一挑战是视觉查询的设计方法。当您启动 spark shell 服务器进行可视化查询时,它会创建一个 spark 上下文,并且该上下文永远不会消失,直到您杀死您的 spark 服务器应用程序。受此影响,在纱线资源管理器 UI 上,您总是会发现 thinkbig spark 服务器正在运行,并且在您终止应用程序之前它永远不会释放资源。
也许我们应该尝试增强视觉查询,因为它是 Kylo 中最酷的功能之一。