问题标签 [spark-hive]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

68 问题

0 投票

4 回答

21194 浏览

apache-spark - 如何在 HiveContext 中设置 hive.metastore.warehouse.dir？

DataFrame.saveAsTable()我正在尝试编写一个依赖于（因为它由文件系统支持）的单元测试用例。我将 hive 仓库参数指向本地磁盘位置：

默认情况下，应该启用 Metastore 的嵌入式模式，因此不需要外部数据库。

但是 HiveContext 似乎忽略了这个配置：因为我在调用 saveAsTable() 时仍然得到这个错误：

这很烦人，为什么它仍然发生以及如何解决它？

2015-05-28T22:30:42.410

0 投票

2 回答

5420 浏览

apache-spark - 使用 Apache Spark 查询多个 Hive 存储

我有一个 spark 应用程序，它将成功连接到 hive 并使用 spark 引擎查询 hive 表。

为了构建这个，我刚刚添加hive-site.xml到应用程序的类路径中，spark 将读取hive-site.xml连接到它的元存储。这个方法是在 spark 的邮件列表中提出的。

到现在为止还挺好。现在我想连接到两个蜂巢商店，我不认为hive-site.xml在我的类路径中添加另一个会有帮助。我参考了很多文章和 spark 邮件列表，但找不到这样做的人。

有人可以建议我如何实现这一目标吗？

谢谢。

参考的文件：

apache-spark hive spark-hive

2015-09-22T10:22:05.123

0 投票

1 回答

689 浏览

maven - 带蜂巢的 apache Spark

我如何从蜂巢读取/写入数据？是否需要使用 hive 配置文件编译 spark 才能与 hive 交互？与 hive 交互需要哪些 maven 依赖项？

我找不到一个很好的文档来一步一步地使用蜂巢。

目前这是我的代码

我收到以下异常

谢谢

maven apache-spark spark-hive

2015-10-13T07:33:44.927

0 投票

2 回答

1725 浏览

hadoop - 通过 Oozie 4.1.0.3 在 Spark 中运行 Hive 查询

使用 Oozie 版本 4.1.0.3 在 Spark 中运行 Hive 查询时获取表未找到异常，作为 java 操作。

从 hdfs 路径复制 hive-site.xml 和 hive-default.xml

使用的工作流.xml：

INFO yarn.ApplicationMaster：最终应用状态：FAILED，exitCode：15，（原因：用户类抛出异常：找不到表test_hive_spark_t1）

线程“驱动程序”org.apache.hadoop.hive.ql.metadata.InvalidTableException 中的异常：找不到表 test_hive_spark_t1

hadoop spark-hive

2015-10-13T11:15:23.693

0 投票

0 回答

1697 浏览

scala - 如何从 spark 更新或删除 hive 表的记录，而不将整个表加载到数据框中？

我有一个包含大约 200 万条记录的 hive orc 表，目前要更新或删除我正在将整个表加载到数据帧中，然后更新并保存为新数据帧并通过覆盖模式保存（下面是命令），所以要更新单个记录我需要加载和处理整个表格数据吗？

我无法执行 objHiveContext.sql("update myTable set columnName=''") 我使用的是 Spark 1.4.1、Hive 1.2.1

myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable") 其中 myData 是更新的数据框。

我怎样才能摆脱加载整个 2-3 百万条记录只是为了更新配置单元表的单个记录。

scala apache-spark hive hivecontext spark-hive

2016-01-06T13:39:34.177

0 投票

2 回答

6358 浏览

scala - 在 spark 中更新后无法查看 hive 表的数据

案例：我有一个表 HiveTest，它是一个 ORC 表，事务设置为 true，并加载到 spark shell 中并查看了数据

---能够查看数据

现在我去我的蜂巢壳或 ambari 更新了表格，例如

现在，当我可以返回 spark 并运行时，我无法查看除列名之外的任何数据

--这次只打印列，数据不来

问题 2：当我运行 scal>objHiveContext.sql("update HiveTest set name='test'") 时无法从 spark sql 更新得到以下错误

此错误适用于 Insert into 语句，也适用于更新语句。

scala apache-spark hive hivecontext spark-hive

2016-01-07T17:31:16.263

0 投票

0 回答

907 浏览

apache-spark - spark HiveContext 无法识别 Hive 表的字段分隔符

我创建了一个配置单元外部表，存储为按 event_date 日期分区的文本文件。

从 Hive 表中读取 spark 时，我们如何指定特定格式的 csv？

环境是

斯卡拉脚本

蜂巢表

看着hdfs

PS如果我们将表存储为orc，它会按预期写入和读取数据。

如果“字段终止于”是默认的，那么 Spark 可以按预期读取数据，因此我猜这将是一个错误。

apache-spark apache-spark-sql apache-spark-1.5 hivecontext spark-hive

2016-03-25T08:51:55.283

0 投票

1 回答

283 浏览

mongodb - 与 Spark 一起使用的 MongoHadoop 连接器按分区数重复结果

我正在尝试使用mongo-hadoop连接器将数据读入 spark。问题是，如果我试图设置读取数据的限制，我会在 RDD 中获得限制 * 分区数。

这种行为对于其他限制是可重现的（我总是得到限制 * 3）。

如果我尝试简单地通过 objectId 查询，我会得到类似的行为（它创建一个具有相同对象 * 分区数的 RDD - 在我的情况下，3 个元素具有相同的文档）。

如果有帮助，我还可以提供用于创建 mongo 集合的脚本。

mongodb apache-spark rdd mongodb-hadoop spark-hive

2016-03-27T09:43:19.873

0 投票

0 回答

441 浏览

apache-spark - Hive 的 GenericUDF 在 Spark 上执行两次

您好，我在创建 hive 的 genericUDF 并注册为临时函数时遇到了一些问题，但是当我调用它时，它的调用两次，请参见下面给出的代码

我用以下代码创建了一个通用UDF

当我用以下语句注册它时

当我使用以下命令调用此函数时

它将在评估正文中执行打印语句两次。

apache-spark hive apache-hive spark-hive

2016-04-11T08:34:31.043

0 投票

3 回答

764 浏览

apache-spark - 从 Spark 在 Hive 中创建外部表

尝试从 Spark 在 Hive 中创建外部表并保存内容时出现以下错误。

我什至尝试将 /tmp/hive 文件夹的权限设置为 chmod 777 但没有成功。

apache-spark hive spark-hive

2016-04-15T16:33:02.370

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-hive]

Reference