问题标签 [metastore]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hive Metastore 到 sys
使用以下之一提取 Hive 元存储的类似 SQL Server 系统的视图的最佳方法是什么:Impala、Hive、Pig?
注意:我无权访问 HDFS 的 ssh。
hive - hive server 和 metastore server 有什么用?
我是蜂巢新手,有些问题让我非常困惑。首先,安装 hive 后,我只运行 hive,然后我可以创建、选择表。hive服务器在哪里,有什么用。第二,metastore服务器有什么用,我知道我们需要metastore来访问关于hive表的元数据,这是否意味着如果我启动一个metastore服务器,我可以在其他应用程序中请求它并获取信息?
hive - Hive Metastore 分区,它是如何工作的?
我有几个疑问,请帮助我理解
- 在 Hive 中,我看到几个 hive 表,集群和元存储中的分区信息不同,这可能是什么原因?
在 Hive 中使用“hive> show partitions”和“SELECT * FROM PARTITIONS WHERE TBL_ID=;” 在元存储中。
- 对于某些配置单元表,我在 Cluster 中看到的分区信息数量较少,但在 Metastore 中显示更多 partition 。对于这种类型的情况,当使用 where 分区子句在 hive 表中运行查询时,会给出一些分区丢失的错误。
与集群相比,有些配置单元表的元存储分区信息数量较少,在这种情况下,在 where 子句中使用分区运行查询时查询不会出错。
apache-spark - 停止 Spark 会话不会关闭 Metastore mysql 连接
我正在使用Spark 2.3.1和Connector/J 5.1.47。
我写了一个简单的程序来检查 Metastore 的连接性:
令我惊讶的是,我发现停止 spark 会话后,metastore 连接仍然处于活动状态!
知道这是 Spark 还是 Connector/J 的错误吗?
hive - 我们可以预测 Hive SELECT * 查询结果的顺序吗?
SELECT * query (no ORDER BY)
如果使用相同的 DBMS 作为 Metastore ,a 的结果顺序是否可能始终相同?
因此,只要 MySQL 用作 Metastore,SELECT *;
查询结果的顺序将始终相同。如果使用 Postgres,相同数据上的顺序将始终相同,但与使用 MySQL 时不同。我说的是相同的数据。
也许这一切都归结为结果的默认顺序是什么以及为什么 MySQL 和 Postgres Metastore 不同的问题。
sql - 无法对表运行任何查询
当我运行以下查询时
我正进入(状态
失败:获取锁时出错:与元存储通信时出错
当我将 hive 并发设置为 false 时,我得到
未能使用 dbtxnmanager set concurrency = true
我可以查询同一数据库的所有其他表,但不能查询上述表。我怎样才能解决这个问题?
hive - 无法使用 Pyspark 访问外部 Hive 元存储
我正在尝试运行一个简单的代码来简单地显示我之前在我的 hive2 服务器上创建的数据库。(请注意,在此示例中,python 和 scala 中的示例都具有相同的结果)。
如果我登录到 hive shell 并列出我的数据库,我会看到总共3 个数据库。
当我在 pyspark 上启动 Spark shell(2.3) 时,我照常执行并将以下属性添加到我的 SparkSession:
并在我的会话中重新启动 SparkContext。
如果我运行以下行来查看所有配置:
我确实可以看到参数已经添加了,我启动了一个新的HiveContext:
但是如果我列出我的数据库:
它不会从 hive shell 显示相同的结果。
我有点迷茫,由于某种原因,它看起来像是忽略了配置参数,因为我确信我使用它的那个是我的元存储作为我从运行中获得的地址:
如果我运行也是相同的地址:
会不会是权限问题?就像某些表未设置为在配置单元外壳/用户之外看到。
谢谢
scala - Scala/Spark API 添加或删除表分区
我正在通过一些外部进程将一个分区写入表。现在我想要一些 API 将这些分区添加到 Metastore。
我知道下面的sql可以作为工作arrount执行
我正在寻找一些要使用的 Scala 数据框 API。
hive - 数据存在于 HDFS 中,但未在配置单元表中获取
我已经通过 spark 程序从 hive 表中加载了记录,数据成功加载到 HDFS 中,但没有在 Hive 表中获取记录。
请在下面找到我们正在使用的压缩技术。
请给我这个问题的解决方案。
hadoop - Hive 远程 postgres 元存储
我正在使用 Apache 发行版进行多节点设置。我能够成功完成 hadoop 安装(Hadoop 2.7.3)。当我尝试 hive (Hive 2.3) 时,它的默认元存储 (derby) 没有问题。然后我将 hive-site.xml 更改为指向我的外部 postgresDB,我按照教程给出了主机、用户名、密码。但是当我运行了schemainit,它失败了,仍然显示德比细节和初始化失败。有人遇到过同样的问题吗?