问题标签 [apache-hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
487 浏览

informatica - 从 Informatica 读取 Apache HIVE 表

我需要使用 Informatica 处理 HIVE 表,然后在对 MS SQL 表进行一些转换后写入数据。

谁能告诉我从 Informatica 连接到 Apache HIVE 所需的驱动程序/连接器是什么。是否有任何特定的 Informatica 版本支持此功能?

0 投票
1 回答
201 浏览

hive - Hive Job 正在处理在某个时间处理后停止

我在独立机器上运行 hive。Hadoop 以伪分布式模式运行。我正在运行连接两个表的 hive 查询(一个表有 7M,另一个有 51M 记录,每个包含 8 列)。处理一段时间后,Mapper 达到零百分比,然后偶尔继续打印零。你能帮我解决这个问题吗?

参考下面的日志。

我验证了跟踪器中的状态。状态显示两次尝试,一次尝试失败,诊断消息如下。

提前致谢。

0 投票
1 回答
2695 浏览

sql - 试图在 HIVE 中找到 select 语句的最大值

我试图在下面的脚本中按重量产生一个最高人物。我有一个工作版本的方式,它以 250 的重量返回 Matt Holiday,现在这就是我想要的最大体重的球员,只有他不是其他人

现在出现了这样的错误

然而这个脚本返回我所期望的,输出如下

输出

0 投票
0 回答
188 浏览

hive - Hive 1.0 - 远程 MySQL Metastore 配置

在 EMR 4.2 - Hive 1.0 版本上,我想连接到远程 mysql 元存储。

这个 remorte 元存储在 Hive .12 上,我仍然想从新集群连接到同一个元存储。由于新的 hive-site.xml 格式,我无法为 metastore-uris 赋予适当的价值。由于遥控器上不存在 9083 deo。我给本地然后配置单元不知道所有数据库。

有人遇到过这个问题并解决了吗?

谢谢!

0 投票
1 回答
2341 浏览

hadoop - HIVE/HiveQL 获取最大计数

样本数据

下面的问题

每天都是unqiue,风向也不是唯一的,所以现在我们正在尝试获取最常见的风向的COUNT

目前这个查询有效,但是它输出所有计数的计数,我只对每种风向的计数感兴趣,它输出南并输出 170000 但答案只有 10,000。

我知道使用 count 的方式有问题,我认为它必须指定别名并按特定的 wind_direction 进行计数,但我无法将其转换为语法

0 投票
1 回答
1197 浏览

hive - 蜂巢中一组元素的平均数量?

在此处输入图像描述

我有两列 id 和 segment。段是逗号分隔的字符串集。我需要在所有表格中找到平均段数。一种方法是使用两个单独的查询 -

在上述情况下,答案是 8/4 = 2。

有没有更好的方法来实现这一目标?

0 投票
1 回答
779 浏览

hadoop - Apache Spark 的 Hive 部署问题(集群模式)

编辑

我正在开发一个从多个结构化模式中读取数据的 Spark 应用程序,并且我正在尝试从这些模式中聚合信息。我的应用程序在本地运行时运行良好。但是当我在集群上运行它时,我遇到了配置问题(很可能是 hive-site.xml)或提交命令参数。我查找了其他相关帖子,但找不到特定于我的场景的解决方案。我已经在下面详细提到了我尝试过的命令以及遇到的错误。我是 Spark 的新手,我可能会遗漏一些微不足道的东西,但可以提供更多信息来支持我的问题。

原始问题:

我一直在尝试在捆绑了 HDP2.3 组件的 6 节点 Hadoop 集群中运行我的 spark 应用程序。

以下是可能对你们提出解决方案有用的组件信息:

集群信息:6节点集群:

128GB RAM 24 核 8TB 硬盘

应用程序中使用的组件

高密度板- 2.3

火花- 1.3.1

$ hadoop 版本:

设想:

我正在尝试以某种方式使用 SparkContext 和 HiveContext 以充分利用 spark 对其数据结构(如数据框)的实时查询。我的应用程序中使用的依赖项是:

以下是我得到的提交命令和相应的错误日志:

提交命令1:

错误日志 1:

提交命令2:

错误日志 2:

由于我没有管理权限,因此无法修改配置。好吧,我可以联系 IT 工程师并进行更改,但如果可能的话,我正在寻找在配置文件中涉及较少更改的解决方案!

此处建议进行配置更改。

然后我尝试按照其他讨论论坛中的建议将各种 jar 文件作为参数传递。

提交命令3:

错误日志 3:

我不明白以下命令发生了什么,无法分析错误日志。

提交命令4:

提交日志4:

还有其他可能的选择吗?任何形式的帮助将不胜感激。如果您需要任何其他信息,请告诉我。

谢谢你。

0 投票
0 回答
754 浏览

hadoop - 在不使用任何虚拟机的情况下在 Windows 上安装 Apache Hive

最近我开始了解 Hive。所以我想尝试一下,但问题是我没有得到任何在 Windows 机器上安装 hive 的教程。我的限制是- 1. 不能在我的机器上安装Linux 作为双启动Windows。2.无法安装VMware或Virtual box。所以我一直在寻找的只是用上面提到的所有这些约束/问题来处理 Hive 查询。

0 投票
1 回答
686 浏览

hadoop - Apache hive Windowing 函数滞后和超前错误

我正在尝试使用 LAG 和 LEAD 函数从列中选择领先和滞后值。下面是表格和数据。

当我尝试选择领先和滞后值时,会抛出以下错误。

如何解决tis问题?

0 投票
1 回答
719 浏览

apache-hive - 使用来自 HDFS 的数据将数据插入到 avro 格式的分区配置单元表中

我创建了一个名为employee (avro 格式)的配置单元表,并在部门上进行了分区。

我的 HDFS 位置中有 avro 数据集。我的数据集也有部门 ID。

我想使用来自 HDFS 的数据将数据导入 Hive 表。在导入期间,我希望将数据保存在其各自的分区中。

如何做到这一点?任何想法?