问题标签 [apache-hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
informatica - 从 Informatica 读取 Apache HIVE 表
我需要使用 Informatica 处理 HIVE 表,然后在对 MS SQL 表进行一些转换后写入数据。
谁能告诉我从 Informatica 连接到 Apache HIVE 所需的驱动程序/连接器是什么。是否有任何特定的 Informatica 版本支持此功能?
hive - Hive Job 正在处理在某个时间处理后停止
我在独立机器上运行 hive。Hadoop 以伪分布式模式运行。我正在运行连接两个表的 hive 查询(一个表有 7M,另一个有 51M 记录,每个包含 8 列)。处理一段时间后,Mapper 达到零百分比,然后偶尔继续打印零。你能帮我解决这个问题吗?
参考下面的日志。
我验证了跟踪器中的状态。状态显示两次尝试,一次尝试失败,诊断消息如下。
提前致谢。
sql - 试图在 HIVE 中找到 select 语句的最大值
我试图在下面的脚本中按重量产生一个最高人物。我有一个工作版本的方式,它以 250 的重量返回 Matt Holiday,现在这就是我想要的最大体重的球员,只有他不是其他人
现在出现了这样的错误
然而这个脚本返回我所期望的,输出如下
输出
hive - Hive 1.0 - 远程 MySQL Metastore 配置
在 EMR 4.2 - Hive 1.0 版本上,我想连接到远程 mysql 元存储。
这个 remorte 元存储在 Hive .12 上,我仍然想从新集群连接到同一个元存储。由于新的 hive-site.xml 格式,我无法为 metastore-uris 赋予适当的价值。由于遥控器上不存在 9083 deo。我给本地然后配置单元不知道所有数据库。
有人遇到过这个问题并解决了吗?
谢谢!
hadoop - HIVE/HiveQL 获取最大计数
样本数据
下面的问题
每天都是unqiue,风向也不是唯一的,所以现在我们正在尝试获取最常见的风向的COUNT
目前这个查询有效,但是它输出所有计数的计数,我只对每种风向的计数感兴趣,它输出南并输出 170000 但答案只有 10,000。
我知道使用 count 的方式有问题,我认为它必须指定别名并按特定的 wind_direction 进行计数,但我无法将其转换为语法
hadoop - Apache Spark 的 Hive 部署问题(集群模式)
编辑:
我正在开发一个从多个结构化模式中读取数据的 Spark 应用程序,并且我正在尝试从这些模式中聚合信息。我的应用程序在本地运行时运行良好。但是当我在集群上运行它时,我遇到了配置问题(很可能是 hive-site.xml)或提交命令参数。我查找了其他相关帖子,但找不到特定于我的场景的解决方案。我已经在下面详细提到了我尝试过的命令以及遇到的错误。我是 Spark 的新手,我可能会遗漏一些微不足道的东西,但可以提供更多信息来支持我的问题。
原始问题:
我一直在尝试在捆绑了 HDP2.3 组件的 6 节点 Hadoop 集群中运行我的 spark 应用程序。
以下是可能对你们提出解决方案有用的组件信息:
集群信息:6节点集群:
128GB RAM 24 核 8TB 硬盘
应用程序中使用的组件
高密度板- 2.3
火花- 1.3.1
$ hadoop 版本:
设想:
我正在尝试以某种方式使用 SparkContext 和 HiveContext 以充分利用 spark 对其数据结构(如数据框)的实时查询。我的应用程序中使用的依赖项是:
以下是我得到的提交命令和相应的错误日志:
提交命令1:
错误日志 1:
提交命令2:
错误日志 2:
由于我没有管理权限,因此无法修改配置。好吧,我可以联系 IT 工程师并进行更改,但如果可能的话,我正在寻找在配置文件中涉及较少更改的解决方案!
此处建议进行配置更改。
然后我尝试按照其他讨论论坛中的建议将各种 jar 文件作为参数传递。
提交命令3:
错误日志 3:
我不明白以下命令发生了什么,无法分析错误日志。
提交命令4:
提交日志4:
还有其他可能的选择吗?任何形式的帮助将不胜感激。如果您需要任何其他信息,请告诉我。
谢谢你。
hadoop - 在不使用任何虚拟机的情况下在 Windows 上安装 Apache Hive
最近我开始了解 Hive。所以我想尝试一下,但问题是我没有得到任何在 Windows 机器上安装 hive 的教程。我的限制是- 1. 不能在我的机器上安装Linux 作为双启动Windows。2.无法安装VMware或Virtual box。所以我一直在寻找的只是用上面提到的所有这些约束/问题来处理 Hive 查询。
hadoop - Apache hive Windowing 函数滞后和超前错误
我正在尝试使用 LAG 和 LEAD 函数从列中选择领先和滞后值。下面是表格和数据。
当我尝试选择领先和滞后值时,会抛出以下错误。
如何解决tis问题?
apache-hive - 使用来自 HDFS 的数据将数据插入到 avro 格式的分区配置单元表中
我创建了一个名为employee (avro 格式)的配置单元表,并在部门上进行了分区。
我的 HDFS 位置中有 avro 数据集。我的数据集也有部门 ID。
我想使用来自 HDFS 的数据将数据导入 Hive 表。在导入期间,我希望将数据保存在其各自的分区中。
如何做到这一点?任何想法?