问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
613 浏览

scala - Graphx:是否可以在不接收消息的情况下在每个顶点上执行程序?

当我尝试使用 Scala 在 Graphx 中实现算法时,我发现无法在下一次迭代中激活所有顶点。如何向我的所有图形顶点发送消息?在我的算法中,所有顶点都应该执行一些超级步骤(无论它们是否收到消息,因为即使没有收到消息也是应该在下一次迭代中处理的事件)。

我在这里给出了在 pregel 的逻辑中实现的 SSSP 算法的官方代码,你可以看到只有收到消息的顶点才会在下一次迭代中执行它们的程序,但是对于我的情况,我希望 pregel 函数迭代运行,即每个超级步骤顶点执行他们的程序,如果需要他们可以投票停止!这个例子中的推理看起来不像 Pregel 的论文逻辑。请对如何实现 Pregel 的真实逻辑有任何想法?

}

0 投票
2 回答
4151 浏览

apache-spark - 为什么我在 Spark 设置中出现“spark-shell: Permission denied”错误?

我是 Apache Spark 的新手。我正在尝试将 Apache Spark 设置到我的 Macbook。我从 Apache Spark 官方网站下载文件“spark-2.4.0-bin-hadoop2.7”。
当我尝试运行 ./bin/spark-shell 或 ./bin/pyspark 时,我得到Permission denied error.
我只想在我的本地机器上运行 spark。
我还尝试授予所有文件夹的权限,但没有帮助。为什么我会出现这个错误?

0 投票
1 回答
57 浏览

apache-spark - 在案例类中无法从字符串解析为 Int

有人可以帮助我在我完全缺少此代码的地方吗?我无法将电话从字符串解析为整数

0 投票
2 回答
1629 浏览

scala - Scala、Spark-shell、Groupby 失败

我有 Spark 2.4.0 版和 scala 2.11.12 版。我可以使用以下代码成功加载数据框。

但是,当我尝试执行 groupby 以下操作时,出现错误。

错误信息是:

错误:值 groupby 不是 org.apache.spark.sql.DataFrame 的成员

我错过了什么。一个完整的 Scala 和 Spark Newb。

0 投票
0 回答
1489 浏览

apache-spark - 无法使用 spark 访问 hive

我正在尝试通过 spark-shell 访问 hive。我使用的是 Windows 8。Hive 版本 - 2.1.1 Spark 版本 - 2.4.0 Hadoop 版本 - 2.7.7 首先,我在 Spark-shell 中输入了以下代码

我在 /spark/conf 中的 hive-site.xml 如下

我得到的错误日志如下

如何解决它。我错过了什么还是我的配置错误?

0 投票
2 回答
5233 浏览

apache-spark - 使用 hive 中的 utf-8 字符编码选择数据

我正在从我的配置单元表/视图中选择数据,但 spark-shell 或直线没有拾取字符编码,但是如果我从 Ambari(直接通过 Hive)选择相同的数据,但从命令行 Hive 已被禁用出于安全原因。请看以下数据:

如果有人知道我做错了什么,或者我需要设置任何参数来读取正确的字符集,请告诉我我已经在 spark shell 中尝试过 java nio 字符集,但没有任何结果。请指导我,对 Hadoop 很陌生。在选择数据之前,有没有办法可以通过命令行将字符集传递给直线或 spark-shell?

0 投票
1 回答
5006 浏览

scala - 找不到 Apache Spark 方法 sun.nio.ch.DirectBuffer.cleaner()Lsun/misc/Cleaner;

我在 spark-shell 中运行自动数据处理脚本时遇到了这个问题。前几次迭代工作正常,但它总是迟早会遇到这个错误。我用谷歌搜索了这个问题,但没有找到完全匹配的。其他类似问题不在 spark 上下文中。我想这可能与JVM版本有关,但我不知道如何解决这个问题。

我在 spark 独立集群中使用了 2 台机器。

1号机Java信息:

2号机Java信息:

错误信息:

0 投票
1 回答
1232 浏览

apache-spark - 系统在windows 10上找不到指定的spark-shell路径

我正在尝试spark在本地安装。运行 spark-shell 时出现以下错误

系统找不到指定的路径

我已经更新了所有环境变量,如 JAVA_HOME、SPARK_HOME、PATH 变量,但仍然出现错误。 在此处输入图像描述

0 投票
0 回答
83 浏览

scala - 蜂巢选择查询在火花创建外部表时抛出异常使用ORC格式

我已经通过 spark-shell 创建了示例表。按分区将 datframe 写入外部表使用 ORC 格式。它是在 spark-shell 中读取/写入的工作文件。但是当我尝试在 hive-shell 上执行相同的选择查询时,它会抛出异常。

下面我已经实现的代码

scala> val df = sc.parallelize(Seq((1,"Sudhir",30),(2,"Sourabh",27),(3,"Suman",35),(4,"Basu",30) )).toDF("id","name","age")

scala>df.write.partitionBy("age").format("ORC").mode(SaveMode.Append).saveAsTable("Abc1")

scala> val df3 = sqlContext.sql("select * from abc1")

scala> df3.dropDuplicates(Seq("id")).show()

耗时:0.486 秒,获取:35 行 hive (sba_db_2018)> select * from Abc1; OK abc1.col 失败,出现异常 java.io.IOException:java.io.IOException: hdfs://nag1-vm-sprintba-11.synapse.com:8020/apps/hive/warehouse/sba_db_2018.db/abc1/age =27/part-r-00001-31ebd621-02bb-4db5-9170-5405010e68fd.orc 不是 SequenceFile 耗时:0.147 秒

0 投票
4 回答
1323 浏览

scala - Scala/Spark 确定外部表的路径

我在 gs 存储桶上有一个外部表并执行一些压缩逻辑,我想确定创建表的完整路径。

如果有人知道如何确定 scala 中的表路径,请告诉我。