问题标签 [hiveserver2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
106 浏览

hive - 直线中没有 mr 作业执行信息

在直线中,我看不到作业执行信息(如作业进度),我已经在 hive-site.xml 中设置了以下属性。任何人都可以帮助弄清楚如何诊断这些问题吗?如何检查 hive server2 是否采用正确的配置?

我只看到以下登录直线

0 投票
1 回答
24 浏览

tableau-api - 如何查找 HiveServer2 的连接详细信息以进行 Tableau 可视化

我正在使用 Hue 编辑器 ( https://demo.gethue.com/hue/accounts/login?next=/ ),并且我想连接到 Tableau 以进行可视化。

但是,GUI 中没有任何地方可以简单地复制和粘贴连接详细信息。

如何找到连接详细信息以允许 Tableau 连接到这些数据库?

Tableau 要求提供以下详细信息:

服务器

港口

0 投票
1 回答
465 浏览

kubernetes - 在 kubernetes 集群中运行的 thrift hiveservers 的反向代理

我需要在 kubernetes 集群上将多个 hiveserver 作为 pod 运行,每个 hiveserver 为属于不同 AD 组的用户提供服务。这些 hiveserver 需要暴露在 kubernetes 集群之外,但是每个 hiveserver 不能暴露为不同的服务。理想情况下,我希望使用入口控制器实现反向代理,并为每个 hiveserver 定义入口,因为服务器可以动态创建和销毁。

我看到 nginx 入口控制器可用于 http,但我没有看到一种方法可以使它作为基于节俭的 hiveservers 的反向代理。我还查看了 knox,但这似乎只支持 http 传输。

是否有一种已知的方法可以将入口控制器设置为前端非 http 端点(如节俭 hiveserver)的反向代理?

0 投票
1 回答
761 浏览

hive - Hiveserver2 未启动 - 捕获异常:ZooKeeper 节点 /hiveserver2 尚未准备好

我已经设置了一个 3 节点 ambari 集群(3 个运行 CentOS 7 的虚拟机),配置单元只是其中一项服务。所有其他服务以及所有主机上的配置单元客户端和配置单元元存储都已启动。但是,启动 hiveserver2 失败。启动日志显示以下异常:已捕获异常:ZooKeeper 节点 /hiveserver2 尚未准备好。睡了 10 秒有人可以帮我吗?

0 投票
1 回答
34 浏览

hive - 使用命令“插入覆盖目录”使用配置单元导出数据时如何打印输出文件大小

我正在使用直线将数据导出到 hdfs,命令如下:

我想设置回显输出文件大小,例如 1024M。

0 投票
0 回答
23 浏览

hive - HIVE执行和安装模式

在 HIVE 安装和执行中,我遇到了以下术语。有人可以确认我的理解并为我的几个问题提供您宝贵的答案。

安装 HIVE 后,没有进程在运行和监听请求(如 RDBMS)。HIVE 的所有必要组件都安装在集群的所有节点中。这使得 HIVE 可以在集群中的任何机器上被调用。我在这里正确吗?

Meta Store: 它是一个 RDBMS 软件,当我们安装 HIVE 时默认是 Derby。由于它具有在给定时间点最多只有一个活动连接的限制,因此无法对其进行并行连接。因此,在所有生产环境中,都使用了另一个 RDBMS 数据库(MySql / SQL Server)。这是存储 HIVE 表的元数据信息的地方。当此数据库启动并运行时,它正在端口中侦听请求。让我们将其称为数据库服务

元服务: 我的理解是,这是另一层服务,它联系数据库服务并从 RDBMS 返回请求的信息。

问:为什么其他需要元数据信息的进程无法连接到RDBMS并自行检索信息?为什么需要元服务?元服务是为了统一吗?或者它是一种写在 RDBMS 上的 ORM?

HiveServer: 这是一个自定义版本的 Thrift 框架,用于 HIVE 执行(实际上,我们可以使用 Thrift 将任何程序制作为 Web 服务。实施后,服务将开始运行并监听请求)。当我们想要查询 HIVE 时(就像我们对其他数据库所做的那样),我们从客户端(来自编程语言/其他 JDBC 客户端)发送查询到 Thrift 服务器,并且在 Meteaservice 的帮助下,Thrift 服务调用 HIVE 查询执行引擎(QEE ) 并返回结果。我的理解正确吗?

Beeline: 它是一个 JDBC 客户端,它以格式良好的方式发布查询并打印结果。这可以在以下情况下调用: 1.Embedded 模式 2.Remote 模式。在本地模式下,Beeline 直接调用 HIVE 查询执行引擎并打印结果。我也为此读过,需要元服务。所以我的理解是 HIVE QEE 也可以使用元服务。

:那么如果仅 HIVE QEE 知道元服务在哪里运行就足够了吗?

在远程模式下,查询被发送到 Thrift 服务器并打印结果。我对么?

而且,当我尝试了解远程和本地元存储之间的区别时,许多文章都谈到在相同的 JVM 和不同的 JVM 中运行它们。当我尝试从流程及其依赖关系的角度来考虑它们时,我无法想象。

谢谢!

0 投票
0 回答
308 浏览

apache-spark - 直线火花节俭服务器问题

我试图通过 jdbc 访问 spark sql,但遇到了一些错误。我正在尝试直线运行

host值在命令中是正确的。(特意编写以使其通用)

hive.server2.thrift.port=10016 并且模式是二进制的。我验证了该进程正在此端口上运行。我检查了 spark thrift 服务器日志:

日志链接https ://pastebin.com/G5Mwaw7E

它说

我正在使用 spark 版本 3.1.0、hive 3.1.2 和 hadoop 3.1.2。遵循本指南 https://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html#interacting-with-different-versions-of-hive-metastore

我将“spark.sql.hive.metastore.version”设置为 3.1.2 并将 jar 设置为指向 hivemetastore 3.1.2 jar,但仍然出现相同的错误。

从日志中,我还怀疑 hive 和 spark 中的 datanucleus 核心版本不匹配,但两者都使用相同的版本。
https://github.com/apache/hive/blob/branch-3.1/pom.xml#L129
https://github.com/apache/spark/blob/branch-3.1/pom.xml#L184(已编辑)

^ 这看起来也很可疑,metastore 是 mysql
这是一个已知问题,应该如何解决。让我知道是否需要其他任何东西。谢谢

0 投票
1 回答
99 浏览

hive - PyHive 在异步模式下运行时无法从 HiveServer2 获取日志

PyHive 在异步模式下运行 Hive 查询时遇到了一个奇怪的问题。在内部,PyHive 使用 Thrift 客户端来执行查询和获取日志(以及执行状态)。我无法获取 Hive 查询的日志(map/reduce 任务等)。cursor.fetch_logs()返回一个空的数据结构

这是代码片段

游标能够正确获取 operationState 但无法获取日志。HiveServer2 端有什么需要配置的吗?

提前致谢

0 投票
0 回答
12 浏览

hive - 多个HiveServer2之间HiveMetaData的数据同步机制是什么

使用 Zookeeper 部署了 HiveServer2 高可用性。当我在一个 HiveServer2 上创建永久函数时,在其他 HiveServer2 上找不到它。唯一可行的解​​决方案是重新启动所有其他 HiveServer2。

我只是想知道 HiveServer2 是否每次都直接访问 HiveMetaStore 中的元数据,或者 HiveServer2 中有一些元数据缓存。

我发现了一个类似的问题,即Share UDFs in Multi hiveserver。它提到了一种解决方案(重新加载功能),但我想了解更多有关原因和机制的信息。

0 投票
0 回答
65 浏览

hive - Hiveserver2 从不启动但没有错误

我正在尝试使用以下命令在本地运行 hiveServer2

然而,这项工作似乎永远不会开始,例如它永远不会在端口 100000 上处于活动状态。下面是跟踪日志,但其中似乎没有任何内容。我的 hive-site.xml 太大而无法包含在问题中,但我正在连接到 mysql 数据库。