问题标签 [spark-hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dataframe - 包 hive 中的对象 HiveContext 无法在包中访问
HI Coders,我又回来了。我正在尝试在我的 scala 代码中使用 HIve 上下文从数据帧创建一个配置单元表,我能够在 sqlContext 中做到这一点,但是当涉及到 HiveContext 时,它会抛出这个错误
我也尝试过相同的声明,但声明略有不同,
我也添加了 sbt 库依赖项,
libraryDependencies += "org.apache.spark" % "spark-hive_2.10" % "1.6.1"
我也试过“提供”。
这是我的一段代码
有什么解决办法吗?我从来没有遇到过这个“不可访问”的错误。
而且我还尝试从代码中创建一个 temptable
但是我在哪里可以找到 mdl_events 表?spark中是否有任何默认数据库可以在其中查找?不过,我不喜欢火花壳。
scala - Spark创建具有相同键的字段数组
我有一个蜂巢表,它位于火花上下文之上。表格格式如下
我想用模式创建一个 DataFrame
从上表
所以最终表变成
我正在使用 hive context(hiveContext.table("table_name")) 加载表,它返回数据框。
我正在尝试使用数据框使用 groupBy 转换为上面的表。但做不到。
scala - 星火构建失败
我已经从 apache 站点下载了 spark 源代码,然后我使用 maven 构建了源代码。
我已经使用以下命令来构建项目
我已经尝试过使用版本 - Phadoop-2.4、2.6,但每次我在配置单元构建时遇到错误 -
无法在项目 spark-hive_2.10 上执行目标 net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first): wrap: scala.reflect.internal.MissingRequirementError: object scala.runtime在编译器镜像中找不到。-> [帮助 1]
apache-spark-sql - 在 spark sql 中使用 HiveContext 会引发异常
我必须使用 HiveContext 而不是 SQLContext,因为使用了一些只能通过 HiveContext 获得的窗口函数。我在 pom.xml 中添加了以下几行:
我运行代码的机器上的 spark 版本也是 1.6.0 但是,当我将代码提交给 spark 时,出现以下异常:
这是堆栈跟踪:
有人知道吗?
apache-spark - Spark Hive:无法检索 DataFrame 的列
我正在尝试在 Hive 上使用 Spark。在代码中,我创建了一个新的DataFrame
并使用以下方法填充自定义数据HiveContext.createDataFrame
:
当我通过spark-submit
命令运行上面的代码时,我得到以下输出:
这是我的spark-submit
电话:
为什么打DataFrame.col(...)
个电话NullPointerException
??
dataframe - Spark Hive:通过另一个 DataFrame 的列的值过滤一个 DataFrame 的行
我有以下两个DataFrames
:
后来我需要以上union
两个DataFrames
。但在我必须删除所有dfOther
具有date
值的行之前,它也包含在dfPromotion
.
以下filtering
步骤的结果应如下所示:
有没有办法在 Java 中做到这一点?我只找到了这个DataFrame.except
方法,但这会检查 DataFrames 的所有列。我需要仅按column过滤第二个 DataFramedate
,因为稍后可以添加其他列,其中可能包含不同的值...
调用dfOther.filter(dfOther.col("date").isin(dfPromotion.col("date")))
会引发以下异常:
apache-spark-sql - 在spark sql中选择除特定列之外的所有列
我想选择表中除 StudentAddress 之外的所有列,因此我编写了以下查询:
它在 Squirrel Sql 客户端中出现以下错误。org.apache.spark.sql.AnalysisException:无法解析“ (StudentAddress)?+.+
”给定的输入列
java - 如何更新/删除 Spark-hive 中的数据?
我不认为我的标题可以解释这个问题,所以这里是问题:
详细信息 build.sbt:
代码:
问题:
更新查询同样的问题。
所以现在我已经完成了这个、这个、更新 Spark SQL 中的查询、这个、这个和许多其他的查询。
我知道 Spark 不支持更新/删除,但我处于需要同时使用这两种操作的情况。任何人都可以以某种方式建议/帮助。
apache-spark - 如何创建没有位置的外部 Hive 表?
我在集群模式下的纱线集群上有一个 spark sql 2.1.1 作业,我想在其中创建一个空的外部配置单元表(带有位置的分区将在后面的步骤中添加)。
当我运行作业时,我收到错误:
CREATE EXTERNAL TABLE 必须带有 LOCATION
但是当我在 Hue 上的 Hive Editor 上运行相同的查询时,它运行得很好。我试图在 SparkSQL 2.1.1 文档中找到答案,但结果是空的。
有谁知道为什么 Spark SQL 对查询更严格?
scala - 在 maven 中添加 spark-hive_2.10 依赖项时 maven 安装期间的错误
我正在使用Scala IDE 4.6.0
并使用从书中获得的原型创建了一个 Maven 项目:Spark In Action
.
我必须使用Scala 2.10.4
and Spark 1.6.2
。
我使用此原型创建了一个基本项目并将其添加spark-hive dependency
到POM
. 结果POM
如下:
我还有一个App.scala
仅用于测试且未使用的源文件Hive
:
当我这样做时,maven install
我有如下错误:
如果我使用相同POM
但没有spark-hive_2.10
依赖关系,它可以正常工作。但在我的情况下,我想读取并创建一个表,spark
所以我必须使用spark-hive
依赖项。
你能帮我解决这个问题吗?