问题标签 [hivecontext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何使用 HiveContext 为 Metastore 使用特定目录?
所以这就是我在Spark Shell中尝试过的。
但它似乎无法识别我正在设置的目录。我已经从堆栈跟踪中删除了内容,因为它非常冗长。整个堆栈跟踪在这里。
我不确定我做错了什么。将不胜感激提供的任何帮助。
hive - 我们可以在 hive 的最新版本中删除整个表吗?
在 hive 0.14 版本中创建了表“学生”。我想删除那个表。可以使用 DELETE 命令吗?
apache-spark - Hive 表是从 spark 创建的,但在 hive 中不可见
从火花使用:
表正在保存我可以使用以下命令的 hadoop 看到我的数据库名称fs -ls /apps/hive/warehouse\test.db'
在哪里test
drwxr-xr-x - psudhir hdfs 0 2016-01-04 05:02 /apps/hive/warehouse/test.db/myTableName
但是当我尝试检查 Hive 中的表时,我也无法使用SHOW TABLES
来自 hiveContext 的命令查看它们。
scala - 如何从 spark 更新或删除 hive 表的记录,而不将整个表加载到数据框中?
我有一个包含大约 200 万条记录的 hive orc 表,目前要更新或删除我正在将整个表加载到数据帧中,然后更新并保存为新数据帧并通过覆盖模式保存(下面是命令),所以要更新单个记录我需要加载和处理整个表格数据吗?
我无法执行 objHiveContext.sql("update myTable set columnName=''") 我使用的是 Spark 1.4.1、Hive 1.2.1
myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable")
其中 myData 是更新的数据框。
我怎样才能摆脱加载整个 2-3 百万条记录只是为了更新配置单元表的单个记录。
scala - 在 spark 中更新后无法查看 hive 表的数据
案例:我有一个表 HiveTest,它是一个 ORC 表,事务设置为 true,并加载到 spark shell 中并查看了数据
---能够查看数据
现在我去我的蜂巢壳或 ambari 更新了表格,例如
现在,当我可以返回 spark 并运行时,我无法查看除列名之外的任何数据
--这次只打印列,数据不来
问题 2:当我运行 scal>objHiveContext.sql("update HiveTest set name='test'") 时无法从 spark sql 更新得到以下错误
此错误适用于 Insert into 语句,也适用于更新语句。
java - 如何解决spark本地模型中的hiveContext抛出java oom permGen空间错误
当我hiveContext
使用IDEA创建一个in spark本地模型时,spark版本为1.6.0,程序抛出异常。异常如下:
我注意到了java oom permGen space
,所以我认为它可能是 permGen 空间太小了。
所以我在谷歌和堆栈溢出中搜索问题,它建议我增加permgen空间,然后我尝试增加空间如下
好像不行,而且参数没有生效,错误依旧存在。正如spark官方所说,我们可以通过SparkConf设置spark java属性,所以我使用sparkConf来增加permgen空间,但它不起作用。
如何增加spark中的permgen空间并使其生效。还有其他人遇到类似的问题,以及如何解决它!
scala - 线程“主”java.lang.NoClassDefFoundError 中的异常:org/apache/spark/sql/catalyst/analysis/OverrideFunctionRegistry
我已经尝试在 spark 和 scala 中使用以下代码,附加代码和 pom.xml
我添加了 spark-core_2.10,spark-catalyst_2.10,spark-sql_2.10,spark-hive_2.10 依赖项我还需要添加更多依赖项吗?
编辑:
apache-spark - 无法使用 Spark 从 scala ide 连接到配置单元
这是我的代码和 pom.xml 和错误,任何人都可以弄清楚确切的原因是什么。
代码:
pom.xml:
错误控制台:
使用 Spark 的默认 log4j 配置文件:org/apache/spark/log4j-defaults.properties
apache-spark - 如何在 Spark 中的 HiveQL 中应用 Windows 功能
我看过讨论windows函数用法的帖子。但我有一些问题。
- 因为它只能在 HiveContext 中使用。鉴于我已经在使用 SparkSQLContext,如何在 SparkSQLContext 和 HiveContext 之间切换?
怎么可能在这里使用 windows 功能运行 HiveQL?我试过
/li>
和原生 Hive SQL
但它们都不起作用。
apache-spark - spark HiveContext 无法识别 Hive 表的字段分隔符
我创建了一个配置单元外部表,存储为按 event_date 日期分区的文本文件。
从 Hive 表中读取 spark 时,我们如何指定特定格式的 csv?
环境是
斯卡拉脚本
蜂巢表
看着hdfs
PS如果我们将表存储为orc,它会按预期写入和读取数据。
如果“字段终止于”是默认的,那么 Spark 可以按预期读取数据,因此我猜这将是一个错误。