问题标签 [spark-shell]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

119 问题

0 投票

1 回答

120 浏览

apache-spark - Spark Shell JDBC 读取的 numPartitions 值是否取决于执行程序的数量？

我在具有 2 个内核和 16GB RAM 的单个节点上以独立模式设置了 Spark，以制作一些粗略的 POC。
我想使用val df = spark.read.format('jdbc')...option('numPartitions',n).load(). numPartitions当我尝试通过调用 a来测量读取不同值的表格所花费的df.rdd.count时间时，我发现无论我给出的值如何，时间都是相同的。我还注意到一个上下文 Web UI，即 Active executor 的数量为 1，即使我在 spark_env.sh 文件中给出了SPARK_WORKER_INSTANCES=2和。SPARK_WORKER_CORES=1

我有两个问题：实际创建的
是否numPartitions取决于执行者的数量？
如何在当前设置中使用多个执行程序启动 spark-shell？

谢谢！

apache-spark spark-shell

2020-04-14T09:03:03.250

0 投票

2 回答

856 浏览

scala - 如何将库添加到 spark shell

我有一个要在 spark shell 中使用的库，如何添加这个库以便可以从 spark shell 访问？sbt：

行家：

2020-04-29T15:01:40.400

0 投票

2 回答

140 浏览

scala - spark-shell 按分区加载现有的配置单元表？

在spark-shell中，如何加载现有的 Hive 表，但只加载其中一个分区？

我正在寻找一种方法，以便它只加载该表的一个特定分区。

谢谢！

scala apache-spark apache-spark-sql spark-shell

2020-04-30T00:08:40.607

0 投票

1 回答

1655 浏览

apache-spark - Livy 创建会话已死

我在我的spark配置中添加了一个包（在spark-default.conf中），但是当我使用livy创建一个新会话时，它会导致我出现问题（请参阅下面的错误）以及 session 和 death 。ps：当我删除这个包时一切正常。

我使用：cloudera hdp2.6.5：

火花2.3
活生生的 0.7.0
Hadoop 2.7
lib 无监督（https://github.com/unsupervise/spark-tss）

步：

livy conf => livy.spark.master 纱线集群
spark-default conf => spark.jars.repositories https://dl.bintray.com/unsupervise/maven/
spark-defaultconf => spark.jars.packages com.github.unsupervise:spark-tss:0.1.1

apache-spark livy spark-shell

2020-05-04T00:36:32.900

0 投票

1 回答

486 浏览

apache-spark - Array_max spark.sql.function 未找到

我需要使用包 org.apache.spark.sql.functions._ 中的函数 array_max 和 array_min ，但是两个函数都没有找到？

ps：

斯卡拉版本 2.11.8
火花版本 2.3.0.2.6.5.0-292
HDP 2.6.5

apache-spark apache-spark-sql hdp spark-shell

2020-05-04T13:30:19.450

0 投票

0 回答

115 浏览

apache-spark - spark等待并且不安排任务运行的可能原因？

这可能是一个非常笼统的问题，但希望有人能指出一些提示。但我发现有时，我的工作火花似乎多次“停顿”：

这项工作的本质是：读取 orc 文件（从 hive 表中），按某些列过滤，不连接，然后写出到另一个 hive 表。

我的工作/阶段总共有 64K 任务（FileScan orc，其次是 Filter、Project）。

该应用程序有 500 个执行器，每个执行器有 4 个核心。最初，大约有 2000 个任务同时运行，情况看起来不错。

过了一会儿，我注意到运行任务的数量一直下降到接近 100 个。许多核心/执行程序只是无所事事地等待。（我检查了这些等待执行者的日志，没有错误。所有分配的任务都在他们身上完成，他们只是在等待）

大约 3-5 分钟后，这些等待的执行者突然得到了任务分配，现在正在愉快地工作。

这可能是什么特殊原因？该应用程序从 spark-shell 运行（--master yarn --deploy-mode 客户端，指定了执行器/大小等的数量）

谢谢！

apache-spark spark-shell

2020-05-04T17:29:04.783

0 投票

0 回答

180 浏览

apache-spark - spark中的作业执行

我对 spark 非常陌生，并试图使用以下命令检查 spark UI 中的 DAG 创建：

当我使用命令读取简单的 csv 文件时

而且我不明白它是什么以及为什么是“MAP”>“MAPPARTITIONSINTERNAL”>“WHOLESTAGECODEGEN”

当我运行包含“inferschema”选项的命令为 TRUE 时，将创建 2 个阶段：

spark.read.format("csv").option("header", "true").option("inferSchema", true).load("/home/user/test.csv") 每个阶段都有自己的DAG

第一阶段 DAG：

第 2 阶段 DAG：

任何机构都可以请帮助我，为什么当推断模式为 TRUE 时它会创建两个阶段，并且我可以从那里获得“DESERIALIZETOOBJECT”>“MAP”等阶段中提到的术语详细说明。

等待有助于详细了解 DAG 的有价值的输入，关于为什么在 JOB 7 中它正在执行多个“MAP PARTITIONS”然后是“DESERIALIZETOOBJECT”然后是“WHOLESTAGECODEGEN”，然后又在 JOB 8 中它正在执行“MAP”>” MAPPARTITIONSINTERNAL" > "WHOLESTAGECODEGEN"

apache-spark apache-spark-sql spark-shell

2020-05-06T06:16:59.567

0 投票

1 回答

475 浏览