问题标签 [spark-hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
21194 浏览

apache-spark - 如何在 HiveContext 中设置 hive.metastore.warehouse.dir?

DataFrame.saveAsTable()我正在尝试编写一个依赖于(因为它由文件系统支持)的单元测试用例。我将 hive 仓库参数指向本地磁盘位置:

默认情况下,应该启用 Metastore 的嵌入式模式,因此不需要外部数据库。

但是 HiveContext 似乎忽略了这个配置:因为我在调用 saveAsTable() 时仍然得到这个错误:

这很烦人,为什么它仍然发生以及如何解决它?

0 投票
2 回答
5420 浏览

apache-spark - 使用 Apache Spark 查询多个 Hive 存储

我有一个 spark 应用程序,它将成功连接到 hive 并使用 spark 引擎查询 hive 表。

为了构建这个,我刚刚添加hive-site.xml到应用程序的类路径中,spark 将读取hive-site.xml连接到它的元存储。这个方法是在 spark 的邮件列表中提出的。

到现在为止还挺好。现在我想连接到两个蜂巢商店,我不认为hive-site.xml在我的类路径中添加另一个会有帮助。我参考了很多文章和 spark 邮件列表,但找不到这样做的人。

有人可以建议我如何实现这一目标吗?

谢谢。

参考的文件:

0 投票
1 回答
689 浏览

maven - 带蜂巢的 apache Spark

我如何从蜂巢读取/写入数据?是否需要使用 hive 配置文件编译 spark 才能与 hive 交互?与 hive 交互需要哪些 maven 依赖项?

我找不到一个很好的文档来一步一步地使用蜂巢。

目前这是我的代码

我收到以下异常

谢谢

0 投票
2 回答
1725 浏览

hadoop - 通过 Oozie 4.1.0.3 在 Spark 中运行 Hive 查询

使用 Oozie 版本 4.1.0.3 在 Spark 中运行 Hive 查询时获取表未找到异常,作为 java 操作。

从 hdfs 路径复制 hive-site.xml 和 hive-default.xml

使用的工作流.xml:

INFO yarn.ApplicationMaster:最终应用状态:FAILED,exitCode:15,(原因:用户类抛出异常:找不到表test_hive_spark_t1)

线程“驱动程序”org.apache.hadoop.hive.ql.metadata.InvalidTableException 中的异常:找不到表 test_hive_spark_t1

0 投票
0 回答
1697 浏览

scala - 如何从 spark 更新或删除 hive 表的记录,而不将整个表加载到数据框中?

我有一个包含大约 200 万条记录的 hive orc 表,目前要更新或删除我正在将整个表加载到数据帧中,然后更新并保存为新数据帧并通过覆盖模式保存(下面是命令),所以要更新单个记录我需要加载和处理整个表格数据吗?

我无法执行 objHiveContext.sql("update myTable set columnName=''") 我使用的是 Spark 1.4.1、Hive 1.2.1

myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable") 其中 myData 是更新的数据框。

我怎样才能摆脱加载整个 2-3 百万条记录只是为了更新配置单元表的单个记录。

0 投票
2 回答
6358 浏览

scala - 在 spark 中更新后无法查看 hive 表的数据

案例:我有一个表 HiveTest,它是一个 ORC 表,事务设置为 true,并加载到 spark shell 中并查看了数据

---能够查看数据

现在我去我的蜂巢壳或 ambari 更新了表格,例如

现在,当我可以返回 spark 并运行时,我无法查看除列名之外的任何数据

--这次只打印列,数据不来

问题 2:当我运行 scal>objHiveContext.sql("update HiveTest set name='test'") 时无法从 spark sql 更新得到以下错误

此错误适用于 Insert into 语句,也适用于更新语句。

0 投票
0 回答
907 浏览

apache-spark - spark HiveContext 无法识别 Hive 表的字段分隔符

我创建了一个配置单元外部表,存储为按 event_date 日期分区的文本文件。

从 Hive 表中读取 spark 时,我们如何指定特定格式的 csv?

环境是

斯卡拉脚本

蜂巢表

看着hdfs

PS如果我们将表存储为orc,它会按预期写入和读取数据。

如果“字段终止于”是默认的,那么 Spark 可以按预期读取数据,因此我猜这将是一个错误。

0 投票
1 回答
283 浏览

mongodb - 与 Spark 一起使用的 MongoHadoop 连接器按分区数重复结果

我正在尝试使用mongo-hadoop连接器将数据读入 spark。问题是,如果我试图设置读取数据的限制,我会在 RDD 中获得限制 * 分区数。

这种行为对于其他限制是可重现的(我总是得到限制 * 3)。

如果我尝试简单地通过 objectId 查询,我会得到类似的行为(它创建一个具有相同对象 * 分区数的 RDD - 在我的情况下,3 个元素具有相同的文档)。

如果有帮助,我还可以提供用于创建 mongo 集合的脚本。

0 投票
0 回答
441 浏览

apache-spark - Hive 的 GenericUDF 在 Spark 上执行两次

您好,我在创建 hive 的 genericUDF 并注册为临时函数时遇到了一些问题,但是当我调用它时,它的调用两次,请参见下面给出的代码

我用以下代码创建了一个通用UDF

当我用以下语句注册它时

当我使用以下命令调用此函数时

它将在评估正文中执行打印语句两次。

0 投票
3 回答
764 浏览

apache-spark - 从 Spark 在 Hive 中创建外部表

尝试从 Spark 在 Hive 中创建外部表并保存内容时出现以下错误。

我什至尝试将 /tmp/hive 文件夹的权限设置为 chmod 777 但没有成功。