问题标签 [hivecontext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
721 浏览

apache-spark - 如何使用 HiveContext 为 Metastore 使用特定目录?

所以这就是我在Spark Shell中尝试过的。

但它似乎无法识别我正在设置的目录。我已经从堆栈跟踪中删除了内容,因为它非常冗长。整个堆栈跟踪在这里

我不确定我做错了什么。将不胜感激提供的任何帮助。

0 投票
1 回答
28 浏览

hive - 我们可以在 hive 的最新版本中删除整个表吗?

在 hive 0.14 版本中创建了表“学生”。我想删除那个表。可以使用 DELETE 命令吗?

0 投票
3 回答
3673 浏览

apache-spark - Hive 表是从 spark 创建的,但在 hive 中不可见

从火花使用:

表正在保存我可以使用以下命令的 hadoop 看到我的数据库名称fs -ls /apps/hive/warehouse\test.db'在哪里test

drwxr-xr-x - psudhir hdfs 0 2016-01-04 05:02 /apps/hive/warehouse/test.db/myTableName

但是当我尝试检查 Hive 中的表时,我也无法使用SHOW TABLES来自 hiveContext 的命令查看它们。

0 投票
0 回答
1697 浏览

scala - 如何从 spark 更新或删除 hive 表的记录,而不将整个表加载到数据框中?

我有一个包含大约 200 万条记录的 hive orc 表,目前要更新或删除我正在将整个表加载到数据帧中,然后更新并保存为新数据帧并通过覆盖模式保存(下面是命令),所以要更新单个记录我需要加载和处理整个表格数据吗?

我无法执行 objHiveContext.sql("update myTable set columnName=''") 我使用的是 Spark 1.4.1、Hive 1.2.1

myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable") 其中 myData 是更新的数据框。

我怎样才能摆脱加载整个 2-3 百万条记录只是为了更新配置单元表的单个记录。

0 投票
2 回答
6358 浏览

scala - 在 spark 中更新后无法查看 hive 表的数据

案例:我有一个表 HiveTest,它是一个 ORC 表,事务设置为 true,并加载到 spark shell 中并查看了数据

---能够查看数据

现在我去我的蜂巢壳或 ambari 更新了表格,例如

现在,当我可以返回 spark 并运行时,我无法查看除列名之外的任何数据

--这次只打印列,数据不来

问题 2:当我运行 scal>objHiveContext.sql("update HiveTest set name='test'") 时无法从 spark sql 更新得到以下错误

此错误适用于 Insert into 语句,也适用于更新语句。

0 投票
0 回答
64 浏览

java - 如何解决spark本地模型中的hiveContext抛出java oom permGen空间错误

当我hiveContext使用IDEA创建一个in spark本地模型时,spark版本为1.6.0,程序抛出异常。异常如下:

我注意到了java oom permGen space,所以我认为它可能是 permGen 空间太小了。

所以我在谷歌和堆栈溢出中搜索问题,它建议我增加permgen空间,然后我尝试增加空间如下

好像不行,而且参数没有生效,错误依旧存在。正如spark官方所说,我们可以通过SparkConf设置spark java属性,所以我使用sparkConf来增加permgen空间,但它不起作用。

如何增加spark中的permgen空间并使其生效。还有其他人遇到类似的问题,以及如何解决它!

0 投票
1 回答
7901 浏览

scala - 线程“主”java.lang.NoClassDefFoundError 中的异常:org/apache/spark/sql/catalyst/analysis/OverrideFunctionRegistry

我已经尝试在 spark 和 scala 中使用以下代码,附加代码和 pom.xml

我添加了 spark-core_2.10,spark-catalyst_2.10,spark-sql_2.10,spark-hive_2.10 依赖项我还需要添加更多依赖项吗?

编辑:

0 投票
0 回答
440 浏览

apache-spark - 无法使用 Spark 从 scala ide 连接到配置单元

这是我的代码和 pom.xml 和错误,任何人都可以弄清楚确切的原因是什么。

代码:

pom.xml:

错误控制台:

使用 Spark 的默认 log4j 配置文件:org/apache/spark/log4j-defaults.properties

0 投票
1 回答
149 浏览

apache-spark - 如何在 Spark 中的 HiveQL 中应用 Windows 功能

我看过讨论windows函数用法的帖子。但我有一些问题。

  1. 因为它只能在 HiveContext 中使用。鉴于我已经在使用 SparkSQLContext,如何在 SparkSQLContext 和 HiveContext 之间切换?
  2. 怎么可能在这里使用 windows 功能运行 HiveQL?我试过

    /li>

和原生 Hive SQL

但它们都不起作用。

0 投票
0 回答
907 浏览

apache-spark - spark HiveContext 无法识别 Hive 表的字段分隔符

我创建了一个配置单元外部表,存储为按 event_date 日期分区的文本文件。

从 Hive 表中读取 spark 时,我们如何指定特定格式的 csv?

环境是

斯卡拉脚本

蜂巢表

看着hdfs

PS如果我们将表存储为orc,它会按预期写入和读取数据。

如果“字段终止于”是默认的,那么 Spark 可以按预期读取数据,因此我猜这将是一个错误。