问题标签 [hivecontext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

106 问题

0 投票

0 回答

721 浏览

apache-spark - 如何使用 HiveContext 为 Metastore 使用特定目录？

所以这就是我在Spark Shell中尝试过的。

但它似乎无法识别我正在设置的目录。我已经从堆栈跟踪中删除了内容，因为它非常冗长。整个堆栈跟踪在这里。

我不确定我做错了什么。将不胜感激提供的任何帮助。

apache-spark hivecontext

0 投票

1 回答

28 浏览

hive - 我们可以在 hive 的最新版本中删除整个表吗？

在 hive 0.14 版本中创建了表“学生”。我想删除那个表。可以使用 DELETE 命令吗？

hive hiveql hivecontext

0 投票

3 回答

3673 浏览

apache-spark - Hive 表是从 spark 创建的，但在 hive 中不可见

从火花使用：

表正在保存我可以使用以下命令的 hadoop 看到我的数据库名称fs -ls /apps/hive/warehouse\test.db'在哪里test

drwxr-xr-x - psudhir hdfs 0 2016-01-04 05:02 /apps/hive/warehouse/test.db/myTableName

但是当我尝试检查 Hive 中的表时，我也无法使用SHOW TABLES来自 hiveContext 的命令查看它们。

apache-spark hive hiveql hivecontext

0 投票

0 回答

1697 浏览

scala - 如何从 spark 更新或删除 hive 表的记录，而不将整个表加载到数据框中？

我有一个包含大约 200 万条记录的 hive orc 表，目前要更新或删除我正在将整个表加载到数据帧中，然后更新并保存为新数据帧并通过覆盖模式保存（下面是命令），所以要更新单个记录我需要加载和处理整个表格数据吗？

我无法执行 objHiveContext.sql("update myTable set columnName=''") 我使用的是 Spark 1.4.1、Hive 1.2.1

myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable") 其中 myData 是更新的数据框。

我怎样才能摆脱加载整个 2-3 百万条记录只是为了更新配置单元表的单个记录。

scala apache-spark hive hivecontext spark-hive

0 投票

2 回答

6358 浏览

scala - 在 spark 中更新后无法查看 hive 表的数据

案例：我有一个表 HiveTest，它是一个 ORC 表，事务设置为 true，并加载到 spark shell 中并查看了数据

---能够查看数据

现在我去我的蜂巢壳或 ambari 更新了表格，例如

现在，当我可以返回 spark 并运行时，我无法查看除列名之外的任何数据

--这次只打印列，数据不来

问题 2：当我运行 scal>objHiveContext.sql("update HiveTest set name='test'") 时无法从 spark sql 更新得到以下错误

此错误适用于 Insert into 语句，也适用于更新语句。

scala apache-spark hive hivecontext spark-hive

0 投票

0 回答

64 浏览

java - 如何解决spark本地模型中的hiveContext抛出java oom permGen空间错误

当我hiveContext使用IDEA创建一个in spark本地模型时，spark版本为1.6.0，程序抛出异常。异常如下：

我注意到了java oom permGen space，所以我认为它可能是 permGen 空间太小了。

所以我在谷歌和堆栈溢出中搜索问题，它建议我增加permgen空间，然后我尝试增加空间如下

好像不行，而且参数没有生效，错误依旧存在。正如spark官方所说，我们可以通过SparkConf设置spark java属性，所以我使用sparkConf来增加permgen空间，但它不起作用。

如何增加spark中的permgen空间并使其生效。还有其他人遇到类似的问题，以及如何解决它！

java apache-spark out-of-memory permgen hivecontext

0 投票

1 回答

7901 浏览

scala - 线程“主”java.lang.NoClassDefFoundError 中的异常：org/apache/spark/sql/catalyst/analysis/OverrideFunctionRegistry

我已经尝试在 spark 和 scala 中使用以下代码，附加代码和 pom.xml

我添加了 spark-core_2.10,spark-catalyst_2.10,spark-sql_2.10,spark-hive_2.10 依赖项我还需要添加更多依赖项吗？

编辑：

scala maven apache-spark apache-spark-sql hivecontext

0 投票

0 回答

440 浏览

apache-spark - 无法使用 Spark 从 scala ide 连接到配置单元

这是我的代码和 pom.xml 和错误，任何人都可以弄清楚确切的原因是什么。

代码：

pom.xml：

错误控制台：

使用 Spark 的默认 log4j 配置文件：org/apache/spark/log4j-defaults.properties

apache-spark hive apache-spark-sql hivecontext

0 投票

1 回答

149 浏览

apache-spark - 如何在 Spark 中的 HiveQL 中应用 Windows 功能

我看过讨论windows函数用法的帖子。但我有一些问题。

因为它只能在 HiveContext 中使用。鉴于我已经在使用 SparkSQLContext，如何在 SparkSQLContext 和 HiveContext 之间切换？
怎么可能在这里使用 windows 功能运行 HiveQL？我试过

/li>

和原生 Hive SQL

但它们都不起作用。

apache-spark pyspark apache-spark-sql hivecontext

0 投票

0 回答

907 浏览

apache-spark - spark HiveContext 无法识别 Hive 表的字段分隔符

我创建了一个配置单元外部表，存储为按 event_date 日期分区的文本文件。

从 Hive 表中读取 spark 时，我们如何指定特定格式的 csv？

环境是

斯卡拉脚本

蜂巢表

看着hdfs

PS如果我们将表存储为orc，它会按预期写入和读取数据。

如果“字段终止于”是默认的，那么 Spark 可以按预期读取数据，因此我猜这将是一个错误。

apache-spark apache-spark-sql apache-spark-1.5 hivecontext spark-hive

1 2 3 4 5 6 7 8 9 10