问题标签 [spark-hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1261 浏览

dataframe - 包 hive 中的对象 HiveContext 无法在包中访问

HI Coders,我又回来了。我正在尝试在我的 scala 代码中使用 HIve 上下文从数据帧创建一个配置单元表,我能够在 sqlContext 中做到这一点,但是当涉及到 HiveContext 时,它会抛出这个错误

我也尝试过相同的声明,但声明略有不同,

我也添加了 sbt 库依赖项,

libraryDependencies += "org.apache.spark" % "spark-hive_2.10" % "1.6.1"

我也试过“提供”。

这是我的一段代码

有什么解决办法吗?我从来没有遇到过这个“不可访问”的错误。

而且我还尝试从代码中创建一个 temptable

但是我在哪里可以找到 mdl_events 表?spark中是否有任何默认数据库可以在其中查找?不过,我不喜欢火花壳。

0 投票
1 回答
136 浏览

scala - Spark创建具有相同键的字段数组

我有一个蜂巢表,它位于火花上下文之上。表格格式如下

我想用模式创建一个 DataFrame

从上表

所以最终表变成

我正在使用 hive context(hiveContext.table("table_name")) 加载表,它返回数据框。

我正在尝试使用数据框使用 groupBy 转换为上面的表。但做不到。

0 投票
0 回答
228 浏览

scala - 星火构建失败

我已经从 apache 站点下载了 spark 源代码,然后我使用 maven 构建了源代码。


我已经使用以下命令来构建项目

我已经尝试过使用版本 - Phadoop-2.4、2.6,但每次我在配置单元构建时遇到错误 -

无法在项目 spark-hive_2.10 上执行目标 net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first): wrap: scala.reflect.internal.MissingRequirementError: object scala.runtime在编译器镜像中找不到。-> [帮助 1]

在此处输入图像描述

0 投票
1 回答
1286 浏览

apache-spark-sql - 在 spark sql 中使用 HiveContext 会引发异常

我必须使用 HiveContext 而不是 SQLContext,因为使用了一些只能通过 HiveContext 获得的窗口函数。我在 pom.xml 中添加了以下几行:

我运行代码的机器上的 spark 版本也是 1.6.0 但是,当我将代码提交给 spark 时,出现以下异常:

这是堆栈跟踪:

有人知道吗?

0 投票
1 回答
941 浏览

apache-spark - Spark Hive:无法检索 DataFrame 的列

我正在尝试在 Hive 上使用 Spark。在代码中,我创建了一个新的DataFrame并使用以下方法填充自定义数据HiveContext.createDataFrame

当我通过spark-submit命令运行上面的代码时,我得到以下输出:

这是我的spark-submit电话:

为什么打DataFrame.col(...)个电话NullPointerException??

0 投票
2 回答
2656 浏览

dataframe - Spark Hive:通过另一个 DataFrame 的列的值过滤一个 DataFrame 的行

我有以下两个DataFrames

后来我需要以上union两个DataFrames。但在我必须删除所有dfOther具有date值的行之前,它也包含在dfPromotion.

以下filtering步骤的结果应如下所示:

有没有办法在 Java 中做到这一点?我只找到了这个DataFrame.except方法,但这会检查 DataFrames 的所有列。我需要仅按column过滤第二个 DataFramedate,因为稍后可以添加其他列,其中可能包含不同的值...

调用dfOther.filter(dfOther.col("date").isin(dfPromotion.col("date")))会引发以下异常:

0 投票
1 回答
12470 浏览

apache-spark-sql - 在spark sql中选择除特定列之外的所有列

我想选择表中除 StudentAddress 之外的所有列,因此我编写了以下查询:

它在 Squirrel Sql 客户端中出现以下错误。org.apache.spark.sql.AnalysisException:无法解析“ (StudentAddress)?+.+”给定的输入列

0 投票
2 回答
5248 浏览

java - 如何更新/删除 Spark-hive 中的数据?

我不认为我的标题可以解释这个问题,所以这里是问题:

详细信息 build.sbt:

代码:

问题:

更新查询同样的问题。

所以现在我已经完成了这个这个更新 Spark SQL 中的查询这个这个和许多其他的查询。

我知道 Spark 不支持更新/删除,但我处于需要同时使用这两种操作的情况。任何人都可以以某种方式建议/帮助。

0 投票
1 回答
3517 浏览

apache-spark - 如何创建没有位置的外部 Hive 表?

我在集群模式下的纱线集群上有一个 spark sql 2.1.1 作业,我想在其中创建一个空的外部配置单元表(带有位置的分区将在后面的步骤中添加)。

当我运行作业时,我收到错误:

CREATE EXTERNAL TABLE 必须带有 LOCATION

但是当我在 Hue 上的 Hive Editor 上运行相同的查询时,它运行得很好。我试图在 SparkSQL 2.1.1 文档中找到答案,但结果是空的。

有谁知道为什么 Spark SQL 对查询更严格?

0 投票
1 回答
634 浏览

scala - 在 maven 中添加 spark-hive_2.10 依赖项时 maven 安装期间的错误

我正在使用Scala IDE 4.6.0并使用从书中获得的原型创建了一个 Maven 项目:Spark In Action.

我必须使用Scala 2.10.4and Spark 1.6.2

我使用此原型创建了一个基本项目并将其添加spark-hive dependencyPOM. 结果POM如下:

我还有一个App.scala仅用于测试且未使用的源文件Hive

当我这样做时,maven install我有如下错误:

如果我使用相同POM但没有spark-hive_2.10依赖关系,它可以正常工作。但在我的情况下,我想读取并创建一个表,spark所以我必须使用spark-hive依赖项。

你能帮我解决这个问题吗?