问题标签 [spark-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark Shell JDBC 读取的 numPartitions 值是否取决于执行程序的数量?
我在具有 2 个内核和 16GB RAM 的单个节点上以独立模式设置了 Spark,以制作一些粗略的 POC。
我想使用val df = spark.read.format('jdbc')...option('numPartitions',n).load()
. numPartitions
当我尝试通过调用 a来测量读取不同值的表格所花费的df.rdd.count
时间时,我发现无论我给出的值如何,时间都是相同的。我还注意到一个上下文 Web UI,即 Active executor 的数量为 1,即使我在 spark_env.sh 文件中给出了SPARK_WORKER_INSTANCES=2
和。SPARK_WORKER_CORES=1
我有两个问题:实际创建的
是否numPartitions
取决于执行者的数量?
如何在当前设置中使用多个执行程序启动 spark-shell?
谢谢!
scala - 如何将库添加到 spark shell
我有一个要在 spark shell 中使用的库,如何添加这个库以便可以从 spark shell 访问?sbt:
行家:
scala - spark-shell 按分区加载现有的配置单元表?
在spark-shell
中,如何加载现有的 Hive 表,但只加载其中一个分区?
我正在寻找一种方法,以便它只加载该表的一个特定分区。
谢谢!
apache-spark - Livy 创建会话已死
我在我的spark配置中添加了一个包(在spark-default.conf中),但是当我使用livy创建一个新会话时,它会导致我出现问题(请参阅下面的错误)以及 session 和 death 。ps:当我删除这个包时一切正常。
我使用:cloudera hdp2.6.5:
- 火花2.3
- 活生生的 0.7.0
- Hadoop 2.7
- lib 无监督(https://github.com/unsupervise/spark-tss)
步 :
- livy conf => livy.spark.master 纱线集群
- spark-default conf => spark.jars.repositories https://dl.bintray.com/unsupervise/maven/
- spark-defaultconf => spark.jars.packages com.github.unsupervise:spark-tss:0.1.1
apache-spark - Array_max spark.sql.function 未找到
我需要使用包 org.apache.spark.sql.functions._ 中的函数 array_max 和 array_min ,但是两个函数都没有找到?
ps:
- 斯卡拉版本 2.11.8
- 火花版本 2.3.0.2.6.5.0-292
- HDP 2.6.5
apache-spark - spark等待并且不安排任务运行的可能原因?
这可能是一个非常笼统的问题,但希望有人能指出一些提示。但我发现有时,我的工作火花似乎多次“停顿”:
这项工作的本质是:读取 orc 文件(从 hive 表中),按某些列过滤,不连接,然后写出到另一个 hive 表。
我的工作/阶段总共有 64K 任务(FileScan orc,其次是 Filter、Project)。
该应用程序有 500 个执行器,每个执行器有 4 个核心。最初,大约有 2000 个任务同时运行,情况看起来不错。
过了一会儿,我注意到运行任务的数量一直下降到接近 100 个。许多核心/执行程序只是无所事事地等待。(我检查了这些等待执行者的日志,没有错误。所有分配的任务都在他们身上完成,他们只是在等待)
大约 3-5 分钟后,这些等待的执行者突然得到了任务分配,现在正在愉快地工作。
这可能是什么特殊原因?该应用程序从 spark-shell 运行(--master yarn --deploy-mode 客户端,指定了执行器/大小等的数量)
谢谢!
apache-spark - spark中的作业执行
我对 spark 非常陌生,并试图使用以下命令检查 spark UI 中的 DAG 创建:
当我使用命令读取简单的 csv 文件时
而且我不明白它是什么以及为什么是“MAP”>“MAPPARTITIONSINTERNAL”>“WHOLESTAGECODEGEN”
当我运行包含“inferschema”选项的命令为 TRUE 时,将创建 2 个阶段:
spark.read.format("csv").option("header", "true").option("inferSchema", true).load("/home/user/test.csv") 每个阶段都有自己的DAG
第一阶段 DAG:
任何机构都可以请帮助我,为什么当推断模式为 TRUE 时它会创建两个阶段,并且我可以从那里获得“DESERIALIZETOOBJECT”>“MAP”等阶段中提到的术语详细说明。
等待有助于详细了解 DAG 的有价值的输入,关于为什么在 JOB 7 中它正在执行多个“MAP PARTITIONS”然后是“DESERIALIZETOOBJECT”然后是“WHOLESTAGECODEGEN”,然后又在 JOB 8 中它正在执行“MAP”>” MAPPARTITIONSINTERNAL" > "WHOLESTAGECODEGEN"
scala - spark-shell - 如何避免抑制省略的堆栈跟踪(异常)
我正在尝试从 spark-shell 运行我的 scala 文件。这个文件调用了一些已经加载到 spark-context 中的其他 jar 文件
问题是如果出现故障,它只会打印堆栈跟踪的一部分。有什么办法可以启用整个堆栈跟踪?
rdd - spark-shell 中的 RDD 输出与想法上的 print(RDD) 不同
idea 或 spark-shell 中的代码将输出 [[I@34a0ef00
但rddData1.glom.collect
在 spark-shell 中会输出 Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5), Array(6, 7, 8, 9, 10))
我怎样才能得到 Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5), Array(6, 7, 8, 9, 10)) 的想法
scala - Livy Spark 互动环节
我正在尝试使用 livy 创建 spark 交互式会话。我需要在 hdfs 中添加一个类似 jar 的库(请参阅我的代码)。但是会话已经死了,日志在下面。
代码 :
日志 :