问题标签 [spark-hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何在 HiveContext 中设置 hive.metastore.warehouse.dir?
DataFrame.saveAsTable()
我正在尝试编写一个依赖于(因为它由文件系统支持)的单元测试用例。我将 hive 仓库参数指向本地磁盘位置:
默认情况下,应该启用 Metastore 的嵌入式模式,因此不需要外部数据库。
但是 HiveContext 似乎忽略了这个配置:因为我在调用 saveAsTable() 时仍然得到这个错误:
这很烦人,为什么它仍然发生以及如何解决它?
apache-spark - 使用 Apache Spark 查询多个 Hive 存储
我有一个 spark 应用程序,它将成功连接到 hive 并使用 spark 引擎查询 hive 表。
为了构建这个,我刚刚添加hive-site.xml
到应用程序的类路径中,spark 将读取hive-site.xml
连接到它的元存储。这个方法是在 spark 的邮件列表中提出的。
到现在为止还挺好。现在我想连接到两个蜂巢商店,我不认为hive-site.xml
在我的类路径中添加另一个会有帮助。我参考了很多文章和 spark 邮件列表,但找不到这样做的人。
有人可以建议我如何实现这一目标吗?
谢谢。
参考的文件:
maven - 带蜂巢的 apache Spark
我如何从蜂巢读取/写入数据?是否需要使用 hive 配置文件编译 spark 才能与 hive 交互?与 hive 交互需要哪些 maven 依赖项?
我找不到一个很好的文档来一步一步地使用蜂巢。
目前这是我的代码
我收到以下异常
谢谢
hadoop - 通过 Oozie 4.1.0.3 在 Spark 中运行 Hive 查询
使用 Oozie 版本 4.1.0.3 在 Spark 中运行 Hive 查询时获取表未找到异常,作为 java 操作。
从 hdfs 路径复制 hive-site.xml 和 hive-default.xml
使用的工作流.xml:
INFO yarn.ApplicationMaster:最终应用状态:FAILED,exitCode:15,(原因:用户类抛出异常:找不到表test_hive_spark_t1)
线程“驱动程序”org.apache.hadoop.hive.ql.metadata.InvalidTableException 中的异常:找不到表 test_hive_spark_t1
scala - 如何从 spark 更新或删除 hive 表的记录,而不将整个表加载到数据框中?
我有一个包含大约 200 万条记录的 hive orc 表,目前要更新或删除我正在将整个表加载到数据帧中,然后更新并保存为新数据帧并通过覆盖模式保存(下面是命令),所以要更新单个记录我需要加载和处理整个表格数据吗?
我无法执行 objHiveContext.sql("update myTable set columnName=''") 我使用的是 Spark 1.4.1、Hive 1.2.1
myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable")
其中 myData 是更新的数据框。
我怎样才能摆脱加载整个 2-3 百万条记录只是为了更新配置单元表的单个记录。
scala - 在 spark 中更新后无法查看 hive 表的数据
案例:我有一个表 HiveTest,它是一个 ORC 表,事务设置为 true,并加载到 spark shell 中并查看了数据
---能够查看数据
现在我去我的蜂巢壳或 ambari 更新了表格,例如
现在,当我可以返回 spark 并运行时,我无法查看除列名之外的任何数据
--这次只打印列,数据不来
问题 2:当我运行 scal>objHiveContext.sql("update HiveTest set name='test'") 时无法从 spark sql 更新得到以下错误
此错误适用于 Insert into 语句,也适用于更新语句。
apache-spark - spark HiveContext 无法识别 Hive 表的字段分隔符
我创建了一个配置单元外部表,存储为按 event_date 日期分区的文本文件。
从 Hive 表中读取 spark 时,我们如何指定特定格式的 csv?
环境是
斯卡拉脚本
蜂巢表
看着hdfs
PS如果我们将表存储为orc,它会按预期写入和读取数据。
如果“字段终止于”是默认的,那么 Spark 可以按预期读取数据,因此我猜这将是一个错误。
mongodb - 与 Spark 一起使用的 MongoHadoop 连接器按分区数重复结果
我正在尝试使用mongo-hadoop连接器将数据读入 spark。问题是,如果我试图设置读取数据的限制,我会在 RDD 中获得限制 * 分区数。
这种行为对于其他限制是可重现的(我总是得到限制 * 3)。
如果我尝试简单地通过 objectId 查询,我会得到类似的行为(它创建一个具有相同对象 * 分区数的 RDD - 在我的情况下,3 个元素具有相同的文档)。
如果有帮助,我还可以提供用于创建 mongo 集合的脚本。
apache-spark - Hive 的 GenericUDF 在 Spark 上执行两次
您好,我在创建 hive 的 genericUDF 并注册为临时函数时遇到了一些问题,但是当我调用它时,它的调用两次,请参见下面给出的代码
我用以下代码创建了一个通用UDF
当我用以下语句注册它时
当我使用以下命令调用此函数时
它将在评估正文中执行打印语句两次。
apache-spark - 从 Spark 在 Hive 中创建外部表
尝试从 Spark 在 Hive 中创建外部表并保存内容时出现以下错误。
我什至尝试将 /tmp/hive 文件夹的权限设置为 chmod 777 但没有成功。