问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
192 浏览

scala - Scala:无法运行 gcloud compute ssh

我正在尝试通过 scala 使用 gcloud compute ssh 运行配置单元查询

首先,这是我尝试过的

这很好。现在,我想针对 GCP 集群运行相同的 hive 命令。我在我的虚拟机上设置了 gcloud,并且可以从命令行轻松完成

现在,我想使用 scala 运行上述内容。这是我尝试过的

为什么我会收到此错误?我也试过

但得到了同样的错误。然后我尝试了

如何使用 scala 正确运行 gcloud comput ssh?

0 投票
4 回答
8643 浏览

scala - Spark shell:如何在里面复制多行?

我有一个想要使用 Spark shell 执行的 Scala 程序,现在当我将粘贴复制到 spark shell 中时它不起作用,我必须在里面逐行复制。

我应该如何复制 shell 内的所有程序?

谢谢。

0 投票
1 回答
2287 浏览

apache-spark - spark-shell 避免输入 spark.sql(""" query """)

我经常使用 spark-shell,通常是在数据库上运行 sql 查询。运行 sql 查询的唯一方法是将它们包装在 spark.sql(""" query """) 中。

有没有办法直接切换到 spark-sql 并避免包装代码?例如,当使用beeline 时,我们得到一个直接的sql 接口。

0 投票
1 回答
659 浏览

apache-spark - 如何在 spark-shell 上使用 createDataFrame 和 createDF

有很好的例子可以使用它,就像这里一样,但是在 spark-shell "...createDF is not a member of org.apache.spark.sql.SparkSession"上。

PS:使用 Spark v2.2。


编辑:对不起,它是一个外部库。问题变化不大:如何在 Spark-shell 会话中导入 Github 库?

0 投票
2 回答
248 浏览

dataframe - Spark-shell中的toDF在哪里,如何与Vector,Seq或其他一起使用?

我尝试了一些基本的数据类型,

但没有人提供toDF(),即使之后import spark.implicits._

我的目标是使用 someting 作为x.toDF("name","age","city").show

在最后一个示例中,toDF存在但错误"java.lang.ClassNotFoundException"


笔记:

  • 我将 Spark-shell 与 Spark v2.2 一起使用。

  • 需要基于参数化的列名称的通用转换toDF(names)而不是像创建 Vector 那样的复杂解决方案case class Person(name: String, age: Long, city: String)

toDF后显示的预期结果是

0 投票
1 回答
1765 浏览

apache-spark - 有没有办法获取当前 Spark Session 的 SparkSession Id?

我有一个由 spark-shell 创建的 Spark 会话和另一个由我的代码创建的 spark 会话。(通过传递给 spark-shell 的 jar 导入)

有没有办法比较两个 Spark 会话的会话 ID?

我知道我们可以通过 spark.SparkContext.applicationId 获取 applicationId。

sessionid 和 applicationId 一样吗?我认为 applicationId 与火花作业相关联。(作业的唯一标识符)

有什么方法可以获取 Spark Session id?

0 投票
1 回答
123 浏览

scala - 将数据框旋转到固定的列数 spark sql

我有一个数据框

我必须将这个数据框旋转到一些(5)个固定列中,分组 BYRidclass. 这里subject的列可能有 n 个不同的值,但是Rid我们class必须生成subject&teacher列作为键值对。

预期的数据框:

有什么建议么 ?

0 投票
0 回答
279 浏览

apache-spark - 运行 spark-shell 会导致“连接被拒绝”

我正在尝试在hadoop(纱线)上运行火花。
当我尝试运行 spark-shell 时,它会导致 ConnectionRefused 异常。日志是这样的:

但是当我用 yarn 运行 wordcount 示例时,一切正常。(所以纱线没问题,我认为)
正如日志所说,它尝试连接到 ubuntu:43856,我认为它尝试连接到我的一个奴隶
,它应该成为slave1:43856(当我设置工人文件时)。我认为问题就在这里,但
单独运行纱线(没有火花)是可以的。
命令的导出yarn node -list是:

有很多配置文件,如果需要一个(或多个)文件,请告诉我。
提前致谢。

0 投票
0 回答
30 浏览

scala - 很高兴从给定的字符串中找到特定的句子?

我想从 Spark 中的字符串中提取特定部分

例如我的字符串是

我想要这样的输出:

0 投票
2 回答
12463 浏览

apache-spark - 忽略非火花配置属性:hive.exec.dynamic.partition.mode

如何使用 运行 Spark-shell hive.exec.dynamic.partition.mode=nonstrict

我尝试(如建议here

但警告“忽略非火花配置属性:hive.exec.dynamic.partition.mode=nonstrict”


PS:使用 Spark 版本 2.2.0.2.6.4.0-91,Scala 版本 2.11.8

笔记

需求在错误后到达df.write.mode("overwrite").insertInto("db.partitionedTable")

org.apache.spark.SparkException:动态分区严格模式需要至少一个静态分区列。要关闭此设置 hive.exec.dynamic.partition.mode=nonstrict