问题标签 [spark-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Scala:无法运行 gcloud compute ssh
我正在尝试通过 scala 使用 gcloud compute ssh 运行配置单元查询
首先,这是我尝试过的
这很好。现在,我想针对 GCP 集群运行相同的 hive 命令。我在我的虚拟机上设置了 gcloud,并且可以从命令行轻松完成
现在,我想使用 scala 运行上述内容。这是我尝试过的
为什么我会收到此错误?我也试过
但得到了同样的错误。然后我尝试了
如何使用 scala 正确运行 gcloud comput ssh?
scala - Spark shell:如何在里面复制多行?
我有一个想要使用 Spark shell 执行的 Scala 程序,现在当我将粘贴复制到 spark shell 中时它不起作用,我必须在里面逐行复制。
我应该如何复制 shell 内的所有程序?
谢谢。
apache-spark - spark-shell 避免输入 spark.sql(""" query """)
我经常使用 spark-shell,通常是在数据库上运行 sql 查询。运行 sql 查询的唯一方法是将它们包装在 spark.sql(""" query """) 中。
有没有办法直接切换到 spark-sql 并避免包装代码?例如,当使用beeline 时,我们得到一个直接的sql 接口。
apache-spark - 如何在 spark-shell 上使用 createDataFrame 和 createDF
有很好的例子可以使用它,就像这里一样,但是在 spark-shell "...createDF is not a member of org.apache.spark.sql.SparkSession"上。
PS:使用 Spark v2.2。
编辑:对不起,它是一个外部库。问题变化不大:如何在 Spark-shell 会话中导入 Github 库?
dataframe - Spark-shell中的toDF在哪里,如何与Vector,Seq或其他一起使用?
我尝试了一些基本的数据类型,
但没有人提供toDF()
,即使之后import spark.implicits._
。
我的目标是使用 someting 作为x.toDF("name","age","city").show
在最后一个示例中,toDF
存在但错误"java.lang.ClassNotFoundException"。
笔记:
我将 Spark-shell 与 Spark v2.2 一起使用。
需要基于参数化的列名称的通用转换
toDF(names)
,而不是像创建 Vector 那样的复杂解决方案case class Person(name: String, age: Long, city: String)
toDF后显示的预期结果是
apache-spark - 有没有办法获取当前 Spark Session 的 SparkSession Id?
我有一个由 spark-shell 创建的 Spark 会话和另一个由我的代码创建的 spark 会话。(通过传递给 spark-shell 的 jar 导入)
有没有办法比较两个 Spark 会话的会话 ID?
我知道我们可以通过 spark.SparkContext.applicationId 获取 applicationId。
sessionid 和 applicationId 一样吗?我认为 applicationId 与火花作业相关联。(作业的唯一标识符)
有什么方法可以获取 Spark Session id?
scala - 将数据框旋转到固定的列数 spark sql
我有一个数据框
我必须将这个数据框旋转到一些(5)个固定列中,分组 BYRid
和class
. 这里subject
的列可能有 n 个不同的值,但是Rid
我们class
必须生成subject
&teacher
列作为键值对。
预期的数据框:
有什么建议么 ?
apache-spark - 运行 spark-shell 会导致“连接被拒绝”
我正在尝试在hadoop(纱线)上运行火花。
当我尝试运行 spark-shell 时,它会导致 ConnectionRefused 异常。日志是这样的:
但是当我用 yarn 运行 wordcount 示例时,一切正常。(所以纱线没问题,我认为)
正如日志所说,它尝试连接到 ubuntu:43856,我认为它尝试连接到我的一个奴隶
,它应该成为slave1:43856(当我设置工人文件时)。我认为问题就在这里,但
单独运行纱线(没有火花)是可以的。
命令的导出yarn node -list
是:
有很多配置文件,如果需要一个(或多个)文件,请告诉我。
提前致谢。
scala - 很高兴从给定的字符串中找到特定的句子?
我想从 Spark 中的字符串中提取特定部分
例如我的字符串是
我想要这样的输出:
apache-spark - 忽略非火花配置属性:hive.exec.dynamic.partition.mode
如何使用 运行 Spark-shell hive.exec.dynamic.partition.mode=nonstrict
?
我尝试(如建议here)
但警告“忽略非火花配置属性:hive.exec.dynamic.partition.mode=nonstrict”
PS:使用 Spark 版本 2.2.0.2.6.4.0-91,Scala 版本 2.11.8
笔记
需求在错误后到达df.write.mode("overwrite").insertInto("db.partitionedTable")
,
org.apache.spark.SparkException:动态分区严格模式需要至少一个静态分区列。要关闭此设置 hive.exec.dynamic.partition.mode=nonstrict