问题标签 [spark-hive]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

68 问题

0 投票

1 回答

1261 浏览

dataframe - 包 hive 中的对象 HiveContext 无法在包中访问

HI Coders，我又回来了。我正在尝试在我的 scala 代码中使用 HIve 上下文从数据帧创建一个配置单元表，我能够在 sqlContext 中做到这一点，但是当涉及到 HiveContext 时，它会抛出这个错误

我也尝试过相同的声明，但声明略有不同，

我也添加了 sbt 库依赖项，

libraryDependencies += "org.apache.spark" % "spark-hive_2.10" % "1.6.1"

我也试过“提供”。

这是我的一段代码

有什么解决办法吗？我从来没有遇到过这个“不可访问”的错误。

而且我还尝试从代码中创建一个 temptable

但是我在哪里可以找到 mdl_events 表？spark中是否有任何默认数据库可以在其中查找？不过，我不喜欢火花壳。

dataframe hivecontext spark-hive

2016-12-21T05:29:16.993

0 投票

1 回答

136 浏览

scala - Spark创建具有相同键的字段数组

我有一个蜂巢表，它位于火花上下文之上。表格格式如下

我想用模式创建一个 DataFrame

从上表

所以最终表变成

我正在使用 hive context(hiveContext.table("table_name")) 加载表，它返回数据框。

我正在尝试使用数据框使用 groupBy 转换为上面的表。但做不到。

scala hadoop apache-spark spark-hive

2017-01-06T10:17:00.267

0 投票

0 回答

228 浏览

scala - 星火构建失败

我已经从 apache 站点下载了 spark 源代码，然后我使用 maven 构建了源代码。

我已经使用以下命令来构建项目

我已经尝试过使用版本 - Phadoop-2.4、2.6，但每次我在配置单元构建时遇到错误 -

无法在项目 spark-hive_2.10 上执行目标 net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first): wrap: scala.reflect.internal.MissingRequirementError: object scala.runtime在编译器镜像中找不到。-> [帮助 1]

scala maven apache-spark spark-hive

2017-01-19T05:38:52.667

0 投票

1 回答

1286 浏览

apache-spark-sql - 在 spark sql 中使用 HiveContext 会引发异常

我必须使用 HiveContext 而不是 SQLContext，因为使用了一些只能通过 HiveContext 获得的窗口函数。我在 pom.xml 中添加了以下几行：

我运行代码的机器上的 spark 版本也是 1.6.0 但是，当我将代码提交给 spark 时，出现以下异常：

这是堆栈跟踪：

有人知道吗？

apache-spark-sql hivecontext spark-hive

2017-03-07T12:30:12.047

0 投票

1 回答

941 浏览

apache-spark - Spark Hive：无法检索 DataFrame 的列

我正在尝试在 Hive 上使用 Spark。在代码中，我创建了一个新的DataFrame并使用以下方法填充自定义数据HiveContext.createDataFrame：

当我通过spark-submit命令运行上面的代码时，我得到以下输出：

这是我的spark-submit电话：

为什么打DataFrame.col(...)个电话NullPointerException？？

apache-spark dataframe hive spark-dataframe spark-hive

2017-03-13T11:22:39.080

0 投票

2 回答

2656 浏览

dataframe - Spark Hive：通过另一个 DataFrame 的列的值过滤一个 DataFrame 的行

我有以下两个DataFrames：

后来我需要以上union两个DataFrames。但在我必须删除所有dfOther具有date值的行之前，它也包含在dfPromotion.

以下filtering步骤的结果应如下所示：

有没有办法在 Java 中做到这一点？我只找到了这个DataFrame.except方法，但这会检查 DataFrames 的所有列。我需要仅按column过滤第二个 DataFramedate，因为稍后可以添加其他列，其中可能包含不同的值...

调用dfOther.filter(dfOther.col("date").isin(dfPromotion.col("date")))会引发以下异常：

dataframe spark-dataframe hiveql spark-hive

2017-03-15T13:37:50.140

0 投票

1 回答

12470 浏览

apache-spark-sql - 在spark sql中选择除特定列之外的所有列

我想选择表中除 StudentAddress 之外的所有列，因此我编写了以下查询：

它在 Squirrel Sql 客户端中出现以下错误。org.apache.spark.sql.AnalysisException：无法解析“ (StudentAddress)?+.+”给定的输入列

apache-spark-sql hiveql pyspark-sql spark-hive

2017-04-26T21:01:25.390

0 投票

2 回答

5248 浏览

java - 如何更新/删除 Spark-hive 中的数据？

我不认为我的标题可以解释这个问题，所以这里是问题：

详细信息 build.sbt：

代码：

问题：

更新查询同样的问题。

所以现在我已经完成了这个、这个、更新 Spark SQL 中的查询、这个、这个和许多其他的查询。

我知道 Spark 不支持更新/删除，但我处于需要同时使用这两种操作的情况。任何人都可以以某种方式建议/帮助。

java scala hive apache-spark-sql spark-hive

2017-04-27T08:06:51.817

0 投票

1 回答

3517 浏览

apache-spark - 如何创建没有位置的外部 Hive 表？

我在集群模式下的纱线集群上有一个 spark sql 2.1.1 作业，我想在其中创建一个空的外部配置单元表（带有位置的分区将在后面的步骤中添加）。

当我运行作业时，我收到错误：

CREATE EXTERNAL TABLE 必须带有 LOCATION

但是当我在 Hue 上的 Hive Editor 上运行相同的查询时，它运行得很好。我试图在 SparkSQL 2.1.1 文档中找到答案，但结果是空的。

有谁知道为什么 Spark SQL 对查询更严格？

apache-spark apache-spark-sql spark-hive

2017-05-31T08:23:17.280

0 投票

1 回答

634 浏览

scala - 在 maven 中添加 spark-hive_2.10 依赖项时 maven 安装期间的错误

我正在使用Scala IDE 4.6.0并使用从书中获得的原型创建了一个 Maven 项目：Spark In Action.

我必须使用Scala 2.10.4and Spark 1.6.2。

我使用此原型创建了一个基本项目并将其添加spark-hive dependency到POM. 结果POM如下：

我还有一个App.scala仅用于测试且未使用的源文件Hive：

当我这样做时，maven install我有如下错误：

如果我使用相同POM但没有spark-hive_2.10依赖关系，它可以正常工作。但在我的情况下，我想读取并创建一个表，spark所以我必须使用spark-hive依赖项。

你能帮我解决这个问题吗？

scala maven apache-spark pom.xml spark-hive

2017-06-09T15:45:27.090

1 2 3 4 5 6 7 8 9 10