问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
120 浏览

apache-spark - Spark Shell JDBC 读取的 numPartitions 值是否取决于执行程序的数量?

我在具有 2 个内核和 16GB RAM 的单个节点上以独立模式设置了 Spark,以制作一些粗略的 POC。
我想使用val df = spark.read.format('jdbc')...option('numPartitions',n).load(). numPartitions当我尝试通过调用 a来测量读取不同值的表格所花费的df.rdd.count时间时,我发现无论我给出的值如何,时间都是相同的。我还注意到一个上下文 Web UI,即 Active executor 的数量为 1,即使我在 spark_env.sh 文件中给出了SPARK_WORKER_INSTANCES=2和。SPARK_WORKER_CORES=1

我有两个问题:实际创建的
是否numPartitions取决于执行者的数量?
如何在当前设置中使用多个执行程序启动 spark-shell?

谢谢!

0 投票
2 回答
856 浏览

scala - 如何将库添加到 spark shell

我有一个要在 spark shell 中使用的库,如何添加这个库以便可以从 spark shell 访问?sbt:

行家:

0 投票
2 回答
140 浏览

scala - spark-shell 按分区加载现有的配置单元表?

spark-shell中,如何加载现有的 Hive 表,但只加载其中一个分区?

我正在寻找一种方法,以便它只加载该表的一个特定分区。

谢谢!

0 投票
1 回答
1655 浏览

apache-spark - Livy 创建会话已死

我在我的spark配置中添加了一个包(在spark-default.conf中),但是当我使用livy创建一个新会话时,它会导致我出现问题(请参阅下面的错误)以及 session 和 death 。ps:当我删除这个包时一切正常。

我使用:cloudera hdp2.6.5:

步 :

  • livy conf => livy.spark.master 纱线集群
  • spark-default conf => spark.jars.repositories https://dl.bintray.com/unsupervise/maven/
  • spark-defaultconf => spark.jars.packages com.github.unsupervise:spark-tss:0.1.1
0 投票
1 回答
486 浏览

apache-spark - Array_max spark.sql.function 未找到

我需要使用包 org.apache.spark.sql.functions._ 中的函数 array_max 和 array_min ,但是两个函数都没有找到?

ps:

  1. 斯卡拉版本 2.11.8
  2. 火花版本 2.3.0.2.6.5.0-292
  3. HDP 2.6.5
0 投票
0 回答
115 浏览

apache-spark - spark等待并且不安排任务运行的可能原因?

这可能是一个非常笼统的问题,但希望有人能指出一些提示。但我发现有时,我的工作火花似乎多次“停顿”:

这项工作的本质是:读取 orc 文件(从 hive 表中),按某些列过滤,不连接,然后写出到另一个 hive 表。

我的工作/阶段总共有 64K 任务(FileScan orc,其次是 Filter、Project)。

该应用程序有 500 个执行器,每个执行器有 4 个核心。最初,大约有 2000 个任务同时运行,情况看起来不错。

过了一会儿,我注意到运行任务的数量一直下降到接近 100 个。许多核心/执行程序只是无所事事地等待。(我检查了这些等待执行者的日志,没有错误。所有分配的任务都在他们身上完成,他们只是在等待)

大约 3-5 分钟后,这些等待的执行者突然得到了任务分配,现在正在愉快地工作。

这可能是什么特殊原因?该应用程序从 spark-shell 运行(--master yarn --deploy-mode 客户端,指定了执行器/大小等的数量)

谢谢!

0 投票
0 回答
180 浏览

apache-spark - spark中的作业执行

我对 spark 非常陌生,并试图使用以下命令检查 spark UI 中的 DAG 创建:

当我使用命令读取简单的 csv 文件时

在此处输入图像描述

而且我不明白它是什么以及为什么是“MAP”>“MAPPARTITIONSINTERNAL”>“WHOLESTAGECODEGEN”

当我运行包含“inferschema”选项的命令为 TRUE 时,将创建 2 个阶段:

spark.read.format("csv").option("header", "true").option("inferSchema", true).load("/home/user/test.csv") 每个阶段都有自己的DAG

第一阶段 DAG:

在此处输入图像描述

第 2 阶段 DAG: 在此处输入图像描述

任何机构都可以请帮助我,为什么当推断模式为 TRUE 时它会创建两个阶段,并且我可以从那里获得“DESERIALIZETOOBJECT”>“MAP”等阶段中提到的术语详细说明。

等待有助于详细了解 DAG 的有价值的输入,关于为什么在 JOB 7 中它正在执行多个“MAP PARTITIONS”然后是“DESERIALIZETOOBJECT”然后是“WHOLESTAGECODEGEN”,然后又在 JOB 8 中它正在执行“MAP”>” MAPPARTITIONSINTERNAL" > "WHOLESTAGECODEGEN"

0 投票
1 回答
475 浏览

scala - spark-shell - 如何避免抑制省略的堆栈跟踪(异常)

我正在尝试从 spark-shell 运行我的 scala 文件。这个文件调用了一些已经加载到 spark-context 中的其他 jar 文件

问题是如果出现故障,它只会打印堆栈跟踪的一部分。有什么办法可以启用整个堆栈跟踪?

0 投票
2 回答
30 浏览

rdd - spark-shell 中的 RDD 输出与想法上的 print(RDD) 不同

idea 或 spark-shell 中的代码将输出 [[I@34a0ef00

rddData1.glom.collect在 spark-shell 中会输出 Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5), Array(6, 7, 8, 9, 10))

我怎样才能得到 Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5), Array(6, 7, 8, 9, 10)) 的想法

0 投票
0 回答
171 浏览

scala - Livy Spark 互动环节

我正在尝试使用 livy 创建 spark 交互式会话。我需要在 hdfs 中添加一个类似 jar 的库(请参阅我的代码)。但是会话已经死了,日志在下面。

代码 :

日志 :