问题标签 [spark-ui]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 有没有办法选择在 Spark ui 应用程序中显示哪些作业?
我正在寻找一种方法来减少我感兴趣的唯一工作的 Spark ui 工作。
例如,如果我有更多“收集”,我想在我的 scala 代码中决定哪个显示在 spark ui 中,而不是。可能吗?
我认为这涉及到纱线应用程序日志。有没有办法改变它?
注意:我尝试使用 log4j 日志级别,我尝试在我的 scala 代码中系统地更改它们,但它不起作用。
pyspark - 将 spark ui 中昂贵的代码部分追溯到 pyspark 的一部分
我有一些带有大量连接和聚合的 pyspark 代码。我已经启用了 spark ui,并且一直在深入研究事件计时、工作阶段和 dag 可视化。我可以找到昂贵部件的任务 ID 和执行者 ID。有没有人知道如何将 spark ui 输出(任务 ID、执行程序 ID)中昂贵的部分与我的 pyspark 代码的一部分联系起来?就像我从输出中可以看出,昂贵的部分是由我所有的连接中的大量洗牌操作引起的,但是确定哪个连接是罪魁祸首真的很方便。
apache-spark - 由于多个接口,无法通过 Hadoop 集群访问 Spark UI
我已经spark-3.1.1-bin-without-hadoop
跑了hadoop-3.2.2
我们的主机网络如下所示:
host.dc.example.com
-- 主机在dc
数据中心的主要接口host.vlan.dc.example.com
-- 主机在数据中心的 VLAN 接口
当我在客户端模式或集群模式下运行 Spark 作业时,资源管理器 ( rm.vlan.dc.example.com
) 无法代理运行在客户端和节点管理器上的应用程序管理器。
发生的情况是 AM 检查启动它的本地主机名。说出client.dc.example.com
并根据该地址向 RM 发送一个 URL。当 RM 尝试通过该 URL 访问 UI 时,AM 将重定向发送回 RM。然后 RM 显示此消息:
application_1627338936990_0014 的应用程序主将资源管理器的 Web 代理的请求重定向回 Web 代理,这意味着您查看应用程序主的 Web UI 的请求无法完成。此错误的典型原因是网络配置错误,导致资源管理器的 Web 代理主机解析为应用程序主控主机上的意外 IP 地址。请联系您的集群管理员解决问题。
rm.vlan.dc.example.com
但是,如果我手动将 AM URL 更改为表单,我可以从 RM 系统 () 访问 UI am.vlan.dc.example.com
。
似乎 AM 假设:
- URL 将映射到系统的默认主机名。
- 除非来自 VLAN 接口,否则访问将被拒绝。
如果我将客户端的主机名从 更改为client.dc.example.com
,client.vlan.dc.example.com
那么我可以通过资源管理器查看 Spark UI。
一种解决方法是更改数据中心的客户端和 NodeManager 系统的所有主机名,但这可能会造成破坏。
这种行为似乎在不同版本的 Spark 中发生了变化。
apache-spark - 为什么我会在一次读取中看到 Spark UI 中的两个作业?
我正在尝试运行以下脚本来加载具有 24k 记录的文件。有什么理由让我在 Spark UI 中看到两个单次加载作业。
代码
trades_df.rdd.numPartitions() 为 1
java - 如何避免在 sparkUI 中显示一些秘密值
我在 spark-submit 命令中传递了一些密钥。我在下面使用来编辑密钥:--conf 'spark.redaction.regex='secret_key'
虽然它正在工作,但在作业执行期间,secret_key 在 sparkUI 中是可见的。编辑发生在最后。如何避免这种情况?
amazon-ec2 - 无法使用 cloudformation 堆栈查看 Spark UI
我想为我的胶水作业启用 spark ui。我遵循为作业启用 Spark UI和启动 Spark 历史服务器,我使用本指南提供的默认 yml 文件在 cloudformation 上启动堆栈。堆栈为CREATE_COMPLETE后,我从堆栈的Outputs中得到了SparkUiPublicUrl,但是我无法打开这个url,这意味着我无法查看spark ui。我尝试过的是修改安全组的入站规则,如下所示,但仍然无法正常工作。我在这里错过了什么吗?
apache-spark - 一些 Spark 作业没有初始化,也没有从 Spark 写入操作中取回控制权
我一直在使用 Spark 3.1.1 和 Java 驱动程序,并为我的数据维护 spark Cache 并创建了视图。进行以下转换。
- 从视图中查询数据
- 对一些数据进行 MySQL 查询。
- 对 DataSet1 和 DataSet2 执行并集
- 执行 RegexTokenizer、StopWordsRemover 转换。
- 对从 StopWordsRemover 转换的单词使用爆炸功能。
- 对单词爆炸执行分组并使用小型广播数据集进行连接操作。
- 执行写入操作。
在这里,我没有从写入操作中获得控制权。在 Spark UI 和 Spark 驱动程序侦听器中,我可以看到直到 RegexTokenizer、StopWordsRemover 转换的作业和任务。对于剩余的转换,不会创建任何作业,也不会重新获得控制权。
如果我在进行第 4 次转换之前执行 DataSet3.cache(),则不会观察到任何问题。
请帮助我理解为什么没有创建火花作业并且在第一种情况下没有获得控制权。