问题标签 [spark-ui]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2808 浏览

apache-spark - Spark本地模式:如何查询执行器槽数?

我正在关注使用 Apache Spark 2.0 分析旧金山市的开放数据的教程,其中声称 Databricks“社区版”中可用的“本地模式”Spark 集群为您提供了 3 个执行器插槽。(所以 3 个任务应该能够同时运行。)

但是,当我在 Databricks“社区版”上的自己的笔记本中查看具有多个任务的作业阶段的“事件时间线”可视化时,看起来多达 8 个任务同时运行:

Spark UI 中的事件时间线,最多同时执行 8 个任务

有没有办法从 PySpark 或 Databricks 笔记本查询执行器插槽的数量?或者我可以直接在 Spark UI 的某个地方看到数字吗?

0 投票
1 回答
228 浏览

apache-spark - 了解流式应用程序的 Spark UI

我试图了解我的 Spark UI 中的条目是什么意思。

在此处输入图像描述

调用操作会导致创建作业。我很难理解

  1. 创造了多少这样的工作?这与微批次的数量成正比吗?
  2. 持续时间列表示什么?
  3. 实例化流上下文时设置批处理持续时间有什么影响?这在 Spark UI 中的何处可见?

新的 StreamingContext(sparkSession.sparkContext, Seconds(50))

0 投票
0 回答
925 浏览

apache-spark - 在读取单个 CSV 文件时,在 spark 中转换为多个阶段

在读取任何 csv 时,无论 csv 文件的大小是小还是大,或者只有文件中的标题,它总是转换为 3 个阶段。并且总是有三个工作,每个工作都有一个阶段。我的应用程序没有任何转换和操作。它只是加载 csv。

公共类字数{

火花用户界面图像:

  1. spark UI 中的三个作业
  2. 阶段相关信息
  3. 所有三个阶段都具有相同的 dag 可视化
  4. 并且所有三个工作都具有相同的 dag 可视化
  5. 这是事件时间线

问题:

  1. 为什么加载或读取 csv 总是分为三个阶段和三个工作。
  2. 为什么在没有任何行动的情况下转换成三份工作?
  3. 代码级别的阶段是如何形成的?
0 投票
0 回答
26 浏览

pyspark - 如何监控使用 pyspark 启动的任务

我正在使用 pyspark 在集群上运行一些任务。我想查看任务的状态。我认为 UI 必须默认启动, 如此处所述

但我无法获得 UI(http://localhost:4040左右)。

0 投票
2 回答
943 浏览

apache-spark - 了解 Spark UI 的事件时间线

我正在运行一项显示事件时间线的工作,如下所示,我试图猜测这些单行之间的差距,它们似乎是平行的,但与其他阶段没有立即顺序......

对此有何其他见解,以及集群在这些间隙期间做了什么?在此处输入图像描述

0 投票
1 回答
1960 浏览

apache-spark - 通过 YARN 无法访问 SparkUI

我正在构建一个 docker 映像以在本地运行 zeppelin 或 spark-shell,以针对使用 YARN 的生产 Hadoop 集群。编辑:环境是 macOS

我可以很好地执行作业或 spark-shell,但是当我尝试访问 YARN 上的Tracking URL同时作业正在运行时,它会将 YARN-UI 挂起 10 分钟。YARN 仍在工作,如果我通过 ssh 连接,我可以执行 yarn 命令。

如果我不访问 SparkUI(直接或通过 YARN),则不会发生任何事情。作业被执行并且 YARN-UI 没有被挂起。

更多信息

  • 本地,在 Docker 上:Spark 2.1.2、Hadoop 2.6.0-cdh5.4.3

  • 生产:Spark 2.1.0、Hadoop 2.6.0-cdh5.4.3

  • 如果我在本地执行它(--master local[*]),它可以工作,我可以通过 4040 连接到 SparkUI。

  • 火花配置:

  • 是的,ApplicationMaster 和节点对我的本地 SparkUI 或驱动程序具有可见性(telnet 测试)

  • 正如我所说,我可以执行作业,然后 docker 公开端口并且它的绑定正在工作。一些日志证明了这一点:

一些想法或我可以在哪里查看正在发生的事情?

0 投票
2 回答
2131 浏览

apache-spark - 什么是 Spark 历史服务器 Spark UI 作业部分中的“活动作业”

我正在尝试了解 Spark History 服务器组件。我知道,历史服务器显示已完成的 Spark 应用程序。

尽管如此,对于已完成的 Spark 应用程序,我看到“活动作业”设置为 1。我试图了解“工作”部分中的“活动工作”是什么意思。此外,应用程序在 30 分钟内完成,但是当我在 8 小时后打开历史服务器时,“持续时间”显示 8.0h。请看截图。

在此处输入图像描述

你能帮我理解上图中的“活动工作”、“持续时间”和“阶段:成功/总计”项目吗?

0 投票
1 回答
246 浏览

apache-spark - Apache Spark:动作和作业之间的关系,Spark UI

迄今为止,据我所知,只要在数据集/数据帧上调用操作,就会在 spark 中提交作业。作业可能进一步分为阶段和任务,我了解如何找出阶段和任务的数量。下面给出的是我的小代码

据我了解,当我阅读时,它应该在第 4 行提交了一份工作。一个在第一场演出,一个在第二场演出。前两个假设是正确的,但对于第二个节目,它提交了 5 个工作。我不明白为什么。下面是我的用户界面截图

在此处输入图像描述

如您所见,工作 0 用于读取 json,工作 1 用于第一个节目,5 个工作用于第二个节目。谁能帮助我了解 spark UI 中的这项工作是什么?

0 投票
1 回答
648 浏览

ibm-bpm - 如何捕获spark ui工具包中单个表的每一行中存在的单选按钮的onchange事件

我正在使用 spark ui 表,我在每一行中都有单选按钮组(是和否)和 teaxtarea。我有多个行。

在此处输入图像描述

我的要求是,如果单击是,那么 textarea 应该只隐藏在该行中。我在 load 中写了下面的代码

截至目前,代码仅适用于第一行。但是对于第二行,在更改按钮时它甚至没有进入该函数,原因可能是控件名称对所有人都是相同的。我该如何处理我应该能够在任何行中单击无线电 btn 并且应该隐藏特定文本区域的情况

0 投票
0 回答
319 浏览

apache-spark - 我的 Spark UI 事件时间线中的空白区域是什么?

我有一个在 YARN 集群(在 AWS EMR 中)上运行的 Spark 批处理应用程序。当我从 S3 读取应用程序的输入并将输出也写入 S3 时,应用程序需要很长时间(将近 6 分钟)。我猜这是因为读取和写入 S3 时的延迟问题。为了证明我的猜测是正确的,我去我的火花事件时间线看看什么需要时间。这是时间线:

在此处输入图像描述 我的保存功能后有巨大的空白。我看到保存功能在大约 10-15 秒内完成执行。它真的完成运行并且执行器处于空闲状态吗?

为了提高我的应用程序的运行时间,我做了一个实验。我使用 HDFS 而不是 S3。我从 HDFS 读取应用程序的输入并将输出也写入 HDFS。申请只用了 1.5 分钟。本例中的火花事件时间线如下所示: 在此处输入图像描述 空白已消失。

  1. 我之前的活动时间线中的空白区域是什么?
  2. 为什么有些作业(即事件时间轴中的蓝色框)垂直均匀分布?
  3. 为什么 foreach() 作业和 save() 作业没有垂直分散?
  4. 职位垂直分散是什么意思?