问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
89 浏览

performance - 有没有办法在读取多个文件时并行化 spark.read.load(string*) ?

我注意到在 spark-shell (spark 2.4.4) 中,当我做一个简单spark.read.format(xyz).load("a","b","c",...)的 .它们是通往 hdfs 的路径)。

这是预期的吗?

我问的原因是,就我而言,我正在尝试加载 50K 文件,并且顺序加载需要很长时间。

谢谢

PS,我试图在源代码中看到它,但不确定这是否是一个: https ://github.com/apache/spark/blob/branch-2.4/sql/core/src/main/scala/ org/apache/spark/sql/DataFrameReader.scala#L180

0 投票
2 回答
64 浏览

scala - 合并包含重复值的数据框的 n 行

我有一个如下所示的数据框

如果我们看到第 1 行和第 5 行有 l1 相同,那么这两个应该合并为 Id=1 的一行。类似地,第 2 行和第 3 行有 l5 共同点,因此这两个应该合并为 Id=2 的一行,第 4 行应该保持不变,因为它与其他行没有重复。

我希望输出如下所示

我正在使用火花 2.3

0 投票
3 回答
397 浏览

scala - java.lang.NoClassDefFoundError: org/apache/spark/sq/sources/v2/StreamingWriteSupportProvider 试图从 scala 中的 kafka 主题中提取

我正在使用一个spark-shell实例来测试从客户端的 kafka 源中提取数据。要启动我正在使用命令的实例spark-shell --jars spark-sql-kafka-0-10_2.11-2.5.0-palantir.8.jar, kafka_2.12-2.5.0.jar, kafka-clients-2.5.0.jar(所有 jar 都存在于工作目录中)。

但是,当我val df = spark.read.format("kafka")...........在几秒钟后运行命令时,它会崩溃并显示以下内容:

但是 - 如果我将 spark-shell 命令中 jar 的顺序更改为 ,则会spark-shell --jars kafka_2.12-2.5.0.jar, kafka-clients-2.5.0.jar, spark-sql-kafka-0-10_2.11-2.5.0-palantir.8.jar崩溃:

我正在开发一个由我们的客户管理的非常严格的代理并且无法使用--packages,我在这里有点茫然,我无法在 shell 启动时加载所有 3 个依赖项吗?我在某个地方错过了另一个步骤吗?

0 投票
2 回答
379 浏览

apache-spark - 在 spark-shell 中运行带有换行符的 scala 脚本

我正在尝试使用以下命令通过 spark shell 运行 scala 脚本: spark-shell -i myScriptFile.scala

当我有单行命令时,我可以让上面的命令工作,但是如果我在脚本中有任何换行符(为了便于阅读),spark-shell(或 REPL?)会将每一行解释为一个完整的操作. 这是我的脚本示例:

使用此脚本运行 spark-shell 时,出现以下错误:

<console>:1: error: illegal start of definition

脚本的语法是正确的,因为如果我启动 shell 并手动将此代码粘贴到 with 中:paste,一切正常。

我试过用反斜杠结束所有多行命令,\但这也不起作用。

有没有人对我如何保持脚本多行但仍然能够将 spark-shell 作为参数传递给它有任何建议?

0 投票
1 回答
99 浏览

java - 用户类抛出异常:java.util.MissingFormatWidthException: %-%

我正在使用 Spark 2.4 并在查询下运行,

这个查询在 Spark-shell 中给出了正确的输出,但是当我通过 Java 类运行时,它会抛出错误。

在运行 spark-submit 以执行此查询时,我们需要做些什么。或者任何人都可以建议这个查询的替代方案

0 投票
1 回答
129 浏览

scala - Executing Linux Command in Scala-Shell

I'm working on a project where I'm needing to execute some linux commands (sqoop command) in my Scala application. See sample command I tried executing with MySql on my VM.

I got the following error:

I used this command as well and I got same error message:

Can someone help me figure out what's cause of the error. I've tried using single quote and double quotes, all to no avail. I searched all over SO but I could not get any solution. That's why I'm posting here. NOTE: Same command successfully executed in pyspark as seen below:

0 投票
2 回答
83 浏览

apache-spark - Spark-shell:当我执行进程时,Web UI 不会改变

我在本地模式下使用 Spark。我运行 spark-shell 并将文件用作数据集。一切都很好(例如,我要求 spark-shell 计算文件中以“a”开头的单词数,我得到了很好的结果),但是当我在 web UI 上看到时,它并没有改变一点也不。

你知道为什么我运行一个进程时 Web UI 没有发展吗?

在此处输入图像描述

0 投票
0 回答
176 浏览

sql - 如何在 spark-shell 中增加 db2 异常的详细程度?

在 db2 驱动的 spark-shell 中运行 scala 脚本后出现错误。我在网上找不到太多关于错误的信息,想知道是否有办法做到这一点。

我已尝试对异常执行 getNextException() 方法,但它不是可识别的命令。

我已经尝试运行在https://www.ibm.com/support/knowledgecenter/SSEPGG_11.1.0/com.ibm.db2.luw.apdv.java.doc/src/tpc上作为示例列出的部分 java 代码/imjcc_tjvjdbue.html 和类似的值未被识别。

代码:

错误:

20/07/06 13:37:20 WARN TaskSetManager:在阶段 0.0 中丢失任务 0.0(TID 0,edclhdpd138.bcbsfl.com,执行程序 2):com.ibm.db2.jcc.am.BatchUpdateException:[jcc][t4 ][102][10040][4.17.29] 批处理失败。该批次已提交,但该批次的单个成员至少发生了一次异常。使用 getNextException() 检索特定批处理元素的异常。错误代码=-4229,SQLSTATE=null

0 投票
0 回答
76 浏览

apache-spark - 我的 pyspark 没有在终端上启动,而是在 jupyter 笔记本上启动

不久前,当我pyspark在终端中输入时。

终端最终会变成……嗯……像这样:

some information

>>>

但现在它会自动从 jupyter notebook 开始。

这种现象发生在spark-3.0.0-preview2-bin-hadoop3.2

我用过很多版本的spark。

以上现象是我的配置错误还是spark版本更新造成的?

谢谢你的帮助。

0 投票
1 回答
575 浏览

scala - 如何将列表转换为scala中的元组列表?

输入: Val l= List("k1","v1","k2","v2")

期望的输出:

List(("k1","v1"),("k2","v2"))

我尝试过使用拉链、折叠、切片,但没有成功。

注意:我已经在 python 中完成了它,但无法在 scala 中完成。