问题标签 [spark-ui]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3560 浏览

amazon-web-services - 如何查看 AWS Glue Spark UI

在我的 Glue 作业中,我启用了 Spark UI 并指定了 Spark UI 工作所需的所有必要细节(s3 相关等)。
如何查看我的 Glue 作业的 DAG/Spark UI?

0 投票
0 回答
34 浏览

performance - Spark UI:如何在同一执行器的核心之间平衡处理的数据量

对于 shuffle 动作,我看到同一个 executor 的核心处理的数据不平衡,当然耗时最长的会减慢整个过程的时间。

所以我想知道是否可以进行一些修改,这样数据将在核心之间平均共享。

我在 aws emr 和 s3 上使用 Spark 2.4。

在此处输入图像描述

0 投票
0 回答
457 浏览

performance - Spark UI:如何理解 DAG 中的 min/med/max

我想完全理解有关 min/med/max 信息的含义。

例如:

所有核心的意思,最小扫描时间是3.1s,最大是15.1,总时间累积到34分钟,对吧?

那么对于

意味着所有核心,最大使用量是 43.6MB,最小使用量是 41.5MB,对吧?

所以同样的逻辑,对于左边的排序步骤,每个核心都使用了 80MB 的内存。

现在,执行器有 4 个核心和 6G RAM,根据 metrix,我认为已经预留了很多 RAM,因为每个核心最多可以使用 1G 左右的 RAM。所以我想尝试减少分区数并强制每个执行器处理更多数据并减少洗牌大小,您认为理论上可行吗?

在此处输入图像描述

0 投票
1 回答
365 浏览

apache-spark - Spark UI -> SQL 选项卡不显示所有(旧)阶段

我正在执行一个有很多阶段(〜150)的火花(sql)作业。它主要是在内部框架内使用 spark-sql 编写的,该框架使用临时视图和数据框链接 SQL。对于初始中间表写入,我可以在 Spark UI -> SQL 选项卡中看到详细视图。但是对于后面的表格写入,SQL 选项卡只显示以下形式的 UI。

这是什么原因,我可以使用任何参数在 SQL 选项卡中获取详细的图形视图吗?

我的火花版本:2.3

编辑:2020 年 1 月 17 日 我发现了一个 JIRA https://issues.apache.org/jira/browse/SPARK-30064,但我不确定它是否相关,因为它提到了我没有使用的 jdbc 数据源。

在此处输入图像描述

0 投票
0 回答
84 浏览

amazon-web-services - 如何使用 boto3 获取 AWS EMR SPARK UI

我正在尝试在 AWS EMR 中使用 Spark UI,而无需登录到 aws 控制台。有什么方法可以使用 python 程序(boto3)访问它。

除了控制台访问之外,我拥有所有凭据和一切。

我浏览了谷歌中的所有材料,但找不到。

0 投票
0 回答
176 浏览

apache-spark - Spark createOrReplaceTempView 成本或性能以及其他影响

我在循环中创建了临时视图。此临时视图用于后续查询。

有时,manual_est_query_results_list列表的大小约为 500 行,导致 Spark UI、SQL 选项卡中的 500 行,如下所示。执行时间以毫秒为单位,但这会使 UI 变得混乱,从而在调试问题时难以导航。如果要移出循环应该注意什么

在此处输入图像描述

0 投票
2 回答
1507 浏览

google-chrome - 拒绝在框架中显示 LOCALHOST,因为“X-Frame-Options”设置为“sameorigin”

这个问题专门针对本地主机。我正在尝试将 localhost 网页嵌入到另一个 localhost 网页中,但它指出这无法完成。这是 chrome 开发者工具中的消息:

Refused to display 'http://127.0.0.1:4040/jobs/' in a frame because it set 'X-Frame-Options' to 'sameorigin'.

如图所示

我曾尝试同时使用 firefox 和 chrome。这是来自 Firefox 的错误消息:

Load denied by X-Frame-Options: “SAMEORIGIN” from “http://127.0.0.1:4040/jobs/”, site does not permit cross-origin framing from “http://localhost:8888/lab”.

为什么 localhost 不被认为是同源?

如何删除对本地主机的此限制?

先感谢您。

注意我宁愿在 AJAX 请求上使用 iframe,除非 AJAX 可以像 iframe 那样复制网页。

0 投票
2 回答
237 浏览

apache-spark - spark ui中的持续时间、处理时间和批处理持续时间有什么区别?

如下图,spark UI 中的持续时间、批处理持续时间和处理时间有什么区别?

谢谢

火花用户界面图片

0 投票
0 回答
190 浏览

apache-spark - 为什么使用的执行程序内存显示大于 Spark Web UI 上的总可用内存?

我有一个 Spark 结构化流式传输作业,该作业运行了大约 3 周。当我在 spark web UI 上打开 Executors 选项卡时,它显示

对于这个应用程序执行器内存设置为 6GB。

请参考以下 Spark UI 截图

Spark UI 执行器内存

我不确定我应该如何解释这些信息。

0 投票
2 回答
220 浏览

apache-spark - Spark SQL:为什么我在 Spark UI 中看到 3 个作业而不是一个作业?

action据我了解, Spark中每个人都有一份工作。
但我经常看到一个操作触发了多个作业。我试图通过对数据集进行简单的聚合来测试这一点,以获得每个类别的最大值(这里是“主题”字段)

在检查 Spark UI 时,我可以看到为该操作执行了 3 个“作业” groupBy,而我期望只有一个。
谁能帮我理解为什么有 3 而不是只有 1?

在检查 Spark UI 时,我可以看到为该操作执行了 3 个“作业” groupBy,而我期望只有一个。 在此处输入图像描述

在此处输入图像描述 谁能帮我理解为什么有 3 而不是只有 1?