问题标签 [spark-ui]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
82 浏览

apache-spark - 作业和任务持续时间的关系是 Spark UI

我试图了解 spark UI 以监视时间,但难以理解工作持续时间和任务持续时间的关系。

对于下面的作业,它说总运行时间 13 分钟,但是当我在作业中打开阶段(有 1 个阶段和 1 个任务)时,它说只有 3 秒。我如何获得其他时间花费的详细信息。

提前致谢!!!

在此处输入图像描述

在此处输入图像描述

0 投票
0 回答
45 浏览

java - 为什么只有 show() 操作出现在 spark ui 中?

我目前有一个使用 spark 的项目。对于这个项目,我们正在计算 a 的一些平均值,DataSet如下所示:

这里this.data定义为自定义类Dataset<PowerConsumptionRow> data在哪里PowerConsumptionRow

对于这段代码,我期待操作groupByaggorderBy在 spark 用户界面中显示为阶段。但是,如下所示,仅show()显示操作:

火花用户界面

这些操作没有出现是有原因的吗?show()由于 的输出正确,因此所有操作都成功执行。

0 投票
0 回答
20 浏览

scala - 有没有办法选择在 Spark ui 应用程序中显示哪些作业?

我正在寻找一种方法来减少我感兴趣的唯一工作的 Spark ui 工作。

例如,如果我有更多“收集”,我想在我的 scala 代码中决定哪个显示在 spark ui 中,而不是。可能吗?

我认为这涉及到纱线应用程序日志。有没有办法改变它?

注意:我尝试使用 log4j 日志级别,我尝试在我的 scala 代码中系统地更改它们,但它不起作用。

0 投票
1 回答
31 浏览

pyspark - 将 spark ui 中昂贵的代码部分追溯到 pyspark 的一部分

我有一些带有大量连接和聚合的 pyspark 代码。我已经启用了 spark ui,并且一直在深入研究事件计时、工作阶段和 dag 可视化。我可以找到昂贵部件的任务 ID 和执行者 ID。有没有人知道如何将 spark ui 输出(任务 ID、执行程序 ID)中昂贵的部分与我的 pyspark 代码的一部分联系起来?就像我从输出中可以看出,昂贵的部分是由我所有的连接中的大量洗牌操作引起的,但是确定哪个连接是罪魁祸首真的很方便。

0 投票
1 回答
270 浏览

apache-spark - 如何从 Databricks 集群的 SparkUI 导出作业/阶段日志

在databricls中,我想将我们在sparkui中看到的jobs/stagesd日志导出到自定义位置进行分析。我们应该怎么做?谢谢。
在此处输入图像描述

0 投票
0 回答
61 浏览

apache-spark - 由于多个接口,无法通过 Hadoop 集群访问 Spark UI

我已经spark-3.1.1-bin-without-hadoop跑了hadoop-3.2.2

我们的主机网络如下所示:

  • host.dc.example.com-- 主机在dc数据中心的主要接口
  • host.vlan.dc.example.com-- 主机在数据中心的 VLAN 接口

当我在客户端模式或集群模式下运行 Spark 作业时,资源管理器 ( rm.vlan.dc.example.com) 无法代理运行在客户端和节点管理器上的应用程序管理器。

发生的情况是 AM 检查启动它的本地主机名。说出client.dc.example.com并根据该地址向 RM 发送一个 URL。当 RM 尝试通过该 URL 访问 UI 时,AM 将重定向发送回 RM。然后 RM 显示此消息:

application_1627338936990_0014 的应用程序主将资源管理器的 Web 代理的请求重定向回 Web 代理,这意味着您查看应用程序主的 Web UI 的请求无法完成。此错误的典型原因是网络配置错误,导致资源管理器的 Web 代理主机解析为应用程序主控主机上的意外 IP 地址。请联系您的集群管理员解决问题。

rm.vlan.dc.example.com但是,如果我手动将 AM URL 更改为表单,我可以从 RM 系统 () 访问 UI am.vlan.dc.example.com

似乎 AM 假设:

  1. URL 将映射到系统的默认主机名。
  2. 除非来自 VLAN 接口,否则访问将被拒绝。

如果我将客户端的主机名从 更改为client.dc.example.comclient.vlan.dc.example.com那么我可以通过资源管理器查看 Spark UI。

一种解决方法是更改​​数据中心的客户端和 NodeManager 系统的所有主机名,但这可能会造成破坏。

这种行为似乎在不同版本的 Spark 中发生了变化。

0 投票
1 回答
36 浏览

apache-spark - 为什么我会在一次读取中看到 Spark UI 中的两个作业?

我正在尝试运行以下脚本来加载具有 24k 记录的文件。有什么理由让我在 Spark UI 中看到两个单次加载作业。

代码

trades_df.rdd.numPartitions() 为 1

火花用户界面图像

0 投票
0 回答
42 浏览

java - 如何避免在 sparkUI 中显示一些秘密值

我在 spark-submit 命令中传递了一些密钥。我在下面使用来编辑密钥:--conf 'spark.redaction.regex='secret_key'

虽然它正在工作,但在作业执行期间,secret_key 在 sparkUI 中是可见的。编辑发生在最后。如何避免这种情况?

0 投票
0 回答
37 浏览

amazon-ec2 - 无法使用 cloudformation 堆栈查看 Spark UI

我想为我的胶水作业启用 spark ui。我遵循为作业启用 Spark UI启动 Spark 历史服务器,我使用本指南提供的默认 yml 文件在 cloudformation 上启动堆栈。堆栈为CREATE_COMPLETE后,我从堆栈的Outputs中得到了SparkUiPublicUrl,但是我无法打开这个url,这意味着我无法查看spark ui。我尝试过的是修改安全组的入站规则,如下所示,但仍然无法正常工作。我在这里错过了什么吗?

入境规则

0 投票
0 回答
26 浏览

apache-spark - 一些 Spark 作业没有初始化,也没有从 Spark 写入操作中取回控制权

我一直在使用 Spark 3.1.1 和 Java 驱动程序,并为我的数据维护 spark Cache 并创建了视图。进行以下转换。

  1. 从视图中查询数据
  2. 对一些数据进行 MySQL 查询。
  3. 对 DataSet1 和 DataSet2 执行并集
  4. 执行 RegexTokenizer、StopWordsRemover 转换。
  5. 对从 StopWordsRemover 转换的单词使用爆炸功能。
  6. 对单词爆炸执行分组并使用小型广播数据集进行连接操作。
  7. 执行写入操作。

在这里,我没有从写入操作中获得控制权。在 Spark UI 和 Spark 驱动程序侦听器中,我可以看到直到 RegexTokenizer、StopWordsRemover 转换的作业和任务。对于剩余的转换,不会创建任何作业,也不会重新获得控制权。

如果我在进行第 4 次转换之前执行 DataSet3.cache(),则不会观察到任何问题。

请帮助我理解为什么没有创建火花作业并且在第一种情况下没有获得控制权。