问题标签 [apache-hive]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

96 问题

0 投票

1 回答

487 浏览

informatica - 从 Informatica 读取 Apache HIVE 表

我需要使用 Informatica 处理 HIVE 表，然后在对 MS SQL 表进行一些转换后写入数据。

谁能告诉我从 Informatica 连接到 Apache HIVE 所需的驱动程序/连接器是什么。是否有任何特定的 Informatica 版本支持此功能？

informatica apache-hive

2016-04-11T16:00:16.213

0 投票

1 回答

201 浏览

hive - Hive Job 正在处理在某个时间处理后停止

我在独立机器上运行 hive。Hadoop 以伪分布式模式运行。我正在运行连接两个表的 hive 查询（一个表有 7M，另一个有 51M 记录，每个包含 8 列）。处理一段时间后，Mapper 达到零百分比，然后偶尔继续打印零。你能帮我解决这个问题吗？

参考下面的日志。

我验证了跟踪器中的状态。状态显示两次尝试，一次尝试失败，诊断消息如下。

提前致谢。

2016-04-12T18:11:16.940

0 投票

1 回答

2695 浏览

sql - 试图在 HIVE 中找到 select 语句的最大值

我试图在下面的脚本中按重量产生一个最高人物。我有一个工作版本的方式，它以 250 的重量返回 Matt Holiday，现在这就是我想要的最大体重的球员，只有他不是其他人

现在出现了这样的错误

然而这个脚本返回我所期望的，输出如下

输出

sql hadoop apache-hive

2016-04-18T17:28:30.793

0 投票

0 回答

188 浏览

hive - Hive 1.0 - 远程 MySQL Metastore 配置

在 EMR 4.2 - Hive 1.0 版本上，我想连接到远程 mysql 元存储。

这个 remorte 元存储在 Hive .12 上，我仍然想从新集群连接到同一个元存储。由于新的 hive-site.xml 格式，我无法为 metastore-uris 赋予适当的价值。由于遥控器上不存在 9083 deo。我给本地然后配置单元不知道所有数据库。

有人遇到过这个问题并解决了吗？

谢谢！

hive apache-spark-sql metastore apache-hive

2016-04-20T00:40:38.107

0 投票

1 回答

2341 浏览

hadoop - HIVE/HiveQL 获取最大计数

样本数据

下面的问题

每天都是unqiue，风向也不是唯一的，所以现在我们正在尝试获取最常见的风向的COUNT

目前这个查询有效，但是它输出所有计数的计数，我只对每种风向的计数感兴趣，它输出南并输出 170000 但答案只有 10,000。

我知道使用 count 的方式有问题，我认为它必须指定别名并按特定的 wind_direction 进行计数，但我无法将其转换为语法

hadoop hive hiveql apache-hive

2016-04-21T15:56:18.273

0 投票

1 回答

1197 浏览

hive - 蜂巢中一组元素的平均数量？

我有两列 id 和 segment。段是逗号分隔的字符串集。我需要在所有表格中找到平均段数。一种方法是使用两个单独的查询 -

在上述情况下，答案是 8/4 = 2。

有没有更好的方法来实现这一目标？

hive aggregate-functions explode hiveql apache-hive

2016-04-22T18:00:03.153

0 投票

1 回答

779 浏览

hadoop - Apache Spark 的 Hive 部署问题（集群模式）

编辑：

我正在开发一个从多个结构化模式中读取数据的 Spark 应用程序，并且我正在尝试从这些模式中聚合信息。我的应用程序在本地运行时运行良好。但是当我在集群上运行它时，我遇到了配置问题（很可能是 hive-site.xml）或提交命令参数。我查找了其他相关帖子，但找不到特定于我的场景的解决方案。我已经在下面详细提到了我尝试过的命令以及遇到的错误。我是 Spark 的新手，我可能会遗漏一些微不足道的东西，但可以提供更多信息来支持我的问题。

原始问题：

我一直在尝试在捆绑了 HDP2.3 组件的 6 节点 Hadoop 集群中运行我的 spark 应用程序。

以下是可能对你们提出解决方案有用的组件信息：

集群信息：6节点集群：

128GB RAM 24 核 8TB 硬盘

应用程序中使用的组件

高密度板- 2.3

火花- 1.3.1

$ hadoop 版本：

设想：

我正在尝试以某种方式使用 SparkContext 和 HiveContext 以充分利用 spark 对其数据结构（如数据框）的实时查询。我的应用程序中使用的依赖项是：

以下是我得到的提交命令和相应的错误日志：

提交命令1：

错误日志 1：

提交命令2：

错误日志 2：

由于我没有管理权限，因此无法修改配置。好吧，我可以联系 IT 工程师并进行更改，但如果可能的话，我正在寻找在配置文件中涉及较少更改的解决方案！

此处建议进行配置更改。

然后我尝试按照其他讨论论坛中的建议将各种 jar 文件作为参数传递。

提交命令3：

错误日志 3：

我不明白以下命令发生了什么，无法分析错误日志。

提交命令4：

提交日志4：

还有其他可能的选择吗？任何形式的帮助将不胜感激。如果您需要任何其他信息，请告诉我。

谢谢你。

hadoop apache-spark apache-spark-sql apache-hive

2016-04-29T18:45:33.280

0 投票

0 回答

754 浏览

hadoop - 在不使用任何虚拟机的情况下在 Windows 上安装 Apache Hive

最近我开始了解 Hive。所以我想尝试一下，但问题是我没有得到任何在 Windows 机器上安装 hive 的教程。我的限制是- 1. 不能在我的机器上安装Linux 作为双启动Windows。2.无法安装VMware或Virtual box。所以我一直在寻找的只是用上面提到的所有这些约束/问题来处理 Hive 查询。

hadoop hive hiveql apache-hive

2016-05-02T13:07:13.137

0 投票

1 回答

686 浏览

hadoop - Apache hive Windowing 函数滞后和超前错误

我正在尝试使用 LAG 和 LEAD 函数从列中选择领先和滞后值。下面是表格和数据。

当我尝试选择领先和滞后值时，会抛出以下错误。

如何解决tis问题？

hadoop apache-hive

2016-05-03T06:05:25.220

0 投票

1 回答

719 浏览

apache-hive - 使用来自 HDFS 的数据将数据插入到 avro 格式的分区配置单元表中

我创建了一个名为employee （avro 格式）的配置单元表，并在部门上进行了分区。

我的 HDFS 位置中有 avro 数据集。我的数据集也有部门 ID。

我想使用来自 HDFS 的数据将数据导入 Hive 表。在导入期间，我希望将数据保存在其各自的分区中。

如何做到这一点？任何想法？

apache-hive

2016-05-17T14:56:34.853

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-hive]

Reference