问题标签 [spark-shell]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

119 问题

0 投票

1 回答

192 浏览

scala - Scala：无法运行 gcloud compute ssh

我正在尝试通过 scala 使用 gcloud compute ssh 运行配置单元查询

首先，这是我尝试过的

这很好。现在，我想针对 GCP 集群运行相同的 hive 命令。我在我的虚拟机上设置了 gcloud，并且可以从命令行轻松完成

现在，我想使用 scala 运行上述内容。这是我尝试过的

为什么我会收到此错误？我也试过

但得到了同样的错误。然后我尝试了

如何使用 scala 正确运行 gcloud comput ssh？

2019-09-09T18:45:45.973

0 投票

4 回答

8643 浏览

scala - Spark shell：如何在里面复制多行？

我有一个想要使用 Spark shell 执行的 Scala 程序，现在当我将粘贴复制到 spark shell 中时它不起作用，我必须在里面逐行复制。

我应该如何复制 shell 内的所有程序？

谢谢。

scala apache-spark spark-shell

2019-09-19T10:19:26.543

0 投票

1 回答

2287 浏览

apache-spark - spark-shell 避免输入 spark.sql(""" query """)

我经常使用 spark-shell，通常是在数据库上运行 sql 查询。运行 sql 查询的唯一方法是将它们包装在 spark.sql(""" query """) 中。

有没有办法直接切换到 spark-sql 并避免包装代码？例如，当使用beeline 时，我们得到一个直接的sql 接口。

apache-spark spark-shell

2019-09-27T15:38:25.490

0 投票

1 回答

659 浏览

apache-spark - 如何在 spark-shell 上使用 createDataFrame 和 createDF

有很好的例子可以使用它，就像这里一样，但是在 spark-shell "...createDF is not a member of org.apache.spark.sql.SparkSession"上。

PS：使用 Spark v2.2。

编辑：对不起，它是一个外部库。问题变化不大：如何在 Spark-shell 会话中导入 Github 库？

apache-spark spark-shell

2019-10-02T20:24:00.467

0 投票

2 回答

248 浏览

dataframe - Spark-shell中的toDF在哪里，如何与Vector，Seq或其他一起使用？

我尝试了一些基本的数据类型，

但没有人提供toDF()，即使之后import spark.implicits._。

我的目标是使用 someting 作为x.toDF("name","age","city").show

在最后一个示例中，toDF存在但错误"java.lang.ClassNotFoundException"。

笔记：

我将 Spark-shell 与 Spark v2.2 一起使用。
需要基于参数化的列名称的通用转换toDF(names)，而不是像创建 Vector 那样的复杂解决方案case class Person(name: String, age: Long, city: String)

toDF后显示的预期结果是

dataframe apache-spark spark-shell

2019-10-09T14:53:08.897

0 投票

1 回答

1765 浏览

apache-spark - 有没有办法获取当前 Spark Session 的 SparkSession Id？

我有一个由 spark-shell 创建的 Spark 会话和另一个由我的代码创建的 spark 会话。（通过传递给 spark-shell 的 jar 导入）

有没有办法比较两个 Spark 会话的会话 ID？

我知道我们可以通过 spark.SparkContext.applicationId 获取 applicationId。

sessionid 和 applicationId 一样吗？我认为 applicationId 与火花作业相关联。（作业的唯一标识符）

有什么方法可以获取 Spark Session id？

apache-spark spark-shell

2019-10-10T14:10:37.603

0 投票

1 回答

123 浏览

scala - 将数据框旋转到固定的列数 spark sql

我有一个数据框

我必须将这个数据框旋转到一些（5）个固定列中，分组 BYRid和class. 这里subject的列可能有 n 个不同的值，但是Rid我们class必须生成subject&teacher列作为键值对。

预期的数据框：

有什么建议么？

scala apache-spark spark-shell

2019-10-16T10:04:29.080

0 投票

0 回答

279 浏览

apache-spark - 运行 spark-shell 会导致“连接被拒绝”

我正在尝试在hadoop（纱线）上运行火花。
当我尝试运行 spark-shell 时，它会导致 ConnectionRefused 异常。日志是这样的：

但是当我用 yarn 运行 wordcount 示例时，一切正常。（所以纱线没问题，我认为）
正如日志所说，它尝试连接到 ubuntu:43856，我认为它尝试连接到我的一个奴隶
，它应该成为slave1：43856（当我设置工人文件时）。我认为问题就在这里，但
单独运行纱线（没有火花）是可以的。
命令的导出yarn node -list是：

有很多配置文件，如果需要一个（或多个）文件，请告诉我。
提前致谢。

apache-spark hadoop hadoop-yarn spark-shell

2019-10-22T19:46:45.803

0 投票

0 回答

30 浏览

scala - 很高兴从给定的字符串中找到特定的句子？

我想从 Spark 中的字符串中提取特定部分

例如我的字符串是

我想要这样的输出：

scala hadoop rdd spark-shell

2019-10-29T10:24:24.133

0 投票

2 回答

12463 浏览

apache-spark - 忽略非火花配置属性：hive.exec.dynamic.partition.mode

如何使用运行 Spark-shell hive.exec.dynamic.partition.mode=nonstrict？

我尝试（如建议here）

但警告“忽略非火花配置属性：hive.exec.dynamic.partition.mode=nonstrict”

PS：使用 Spark 版本 2.2.0.2.6.4.0-91，Scala 版本 2.11.8

笔记

需求在错误后到达df.write.mode("overwrite").insertInto("db.partitionedTable")，

org.apache.spark.SparkException：动态分区严格模式需要至少一个静态分区列。要关闭此设置 hive.exec.dynamic.partition.mode=nonstrict

apache-spark spark-shell

2019-10-30T21:15:43.723

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-shell]

笔记

Reference