问题标签 [spark-ui]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark本地模式:如何查询执行器槽数?
我正在关注使用 Apache Spark 2.0 分析旧金山市的开放数据的教程,其中声称 Databricks“社区版”中可用的“本地模式”Spark 集群为您提供了 3 个执行器插槽。(所以 3 个任务应该能够同时运行。)
但是,当我在 Databricks“社区版”上的自己的笔记本中查看具有多个任务的作业阶段的“事件时间线”可视化时,看起来多达 8 个任务同时运行:
有没有办法从 PySpark 或 Databricks 笔记本查询执行器插槽的数量?或者我可以直接在 Spark UI 的某个地方看到数字吗?
apache-spark - 在读取单个 CSV 文件时,在 spark 中转换为多个阶段
在读取任何 csv 时,无论 csv 文件的大小是小还是大,或者只有文件中的标题,它总是转换为 3 个阶段。并且总是有三个工作,每个工作都有一个阶段。我的应用程序没有任何转换和操作。它只是加载 csv。
公共类字数{
火花用户界面图像:
问题:
- 为什么加载或读取 csv 总是分为三个阶段和三个工作。
- 为什么在没有任何行动的情况下转换成三份工作?
- 代码级别的阶段是如何形成的?
pyspark - 如何监控使用 pyspark 启动的任务
我正在使用 pyspark 在集群上运行一些任务。我想查看任务的状态。我认为 UI 必须默认启动, 如此处所述。
但我无法获得 UI(http://localhost:4040左右)。
apache-spark - 通过 YARN 无法访问 SparkUI
我正在构建一个 docker 映像以在本地运行 zeppelin 或 spark-shell,以针对使用 YARN 的生产 Hadoop 集群。编辑:环境是 macOS
我可以很好地执行作业或 spark-shell,但是当我尝试访问 YARN 上的Tracking URL同时作业正在运行时,它会将 YARN-UI 挂起 10 分钟。YARN 仍在工作,如果我通过 ssh 连接,我可以执行 yarn 命令。
如果我不访问 SparkUI(直接或通过 YARN),则不会发生任何事情。作业被执行并且 YARN-UI 没有被挂起。
更多信息:
本地,在 Docker 上:Spark 2.1.2、Hadoop 2.6.0-cdh5.4.3
生产:Spark 2.1.0、Hadoop 2.6.0-cdh5.4.3
如果我在本地执行它(--master local[*]),它可以工作,我可以通过 4040 连接到 SparkUI。
火花配置:
是的,ApplicationMaster 和节点对我的本地 SparkUI 或驱动程序具有可见性(telnet 测试)
正如我所说,我可以执行作业,然后 docker 公开端口并且它的绑定正在工作。一些日志证明了这一点:
一些想法或我可以在哪里查看正在发生的事情?
apache-spark - 我的 Spark UI 事件时间线中的空白区域是什么?
我有一个在 YARN 集群(在 AWS EMR 中)上运行的 Spark 批处理应用程序。当我从 S3 读取应用程序的输入并将输出也写入 S3 时,应用程序需要很长时间(将近 6 分钟)。我猜这是因为读取和写入 S3 时的延迟问题。为了证明我的猜测是正确的,我去我的火花事件时间线看看什么需要时间。这是时间线:
我的保存功能后有巨大的空白。我看到保存功能在大约 10-15 秒内完成执行。它真的完成运行并且执行器处于空闲状态吗?
为了提高我的应用程序的运行时间,我做了一个实验。我使用 HDFS 而不是 S3。我从 HDFS 读取应用程序的输入并将输出也写入 HDFS。申请只用了 1.5 分钟。本例中的火花事件时间线如下所示: 空白已消失。
- 我之前的活动时间线中的空白区域是什么?
- 为什么有些作业(即事件时间轴中的蓝色框)垂直均匀分布?
- 为什么 foreach() 作业和 save() 作业没有垂直分散?
- 职位垂直分散是什么意思?