问题标签 [hive-metastore]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
696 浏览

jupyter-notebook - 将 jupyter 连接到 hive 元存储

我在 docker 上使用 jupyter notebook 在我的 spark conf 文件夹 (/usr/local/spark/conf) 我有我的 hive-site.xml

当我使用 R 笔记本时,以下代码可以正常工作并连接到远程配置单元元存储

但是当我在 Scala 笔记本中运行以下代码时

它在元存储本地启动并且不显示任何数据

任何提示?

0 投票
1 回答
708 浏览

hive - Redshift Spectrum 和 Hive Metastore - 模棱两可的错误

在 Redshift 中,我使用 Hive Metastore 创建了一个外部模式。我可以看到有关表的 Redshift 元数据(例如使用:select * from SVV_EXTERNAL_TABLES),但是在查询其中一个表时,我收到一个模棱两可的错误“错误:断言”

我尝试创建外部模式并查询表。我可以查询有关表的元数据,但实际上不能查询表本身。

我创建了如下外部模式:

这是运行“select * from hive_schema.my_table_name;”时的错误消息

0 投票
0 回答
471 浏览

hadoop - Hive 远程 postgres 元存储

我正在使用 Apache 发行版进行多节点设置。我能够成功完成 hadoop 安装(Hadoop 2.7.3)。当我尝试 hive (Hive 2.3) 时,它的默认元存储 (derby) 没有问题。然后我将 hive-site.xml 更改为指向我的外部 postgresDB,我按照教程给出了主机、用户名、密码。但是当我运行了schemainit,它失败了,仍然显示德比细节和初始化失败。有人遇到过同样的问题吗?

0 投票
1 回答
19 浏览

hadoop - 将现有元数据从 metastore(derby) 和数据从 Hive 1.2 迁移到 Hive 2.4.3

我刚刚部署了 Hive 2.4.3,但是在旧版本的 Hive 1.2 上几乎没有带有分区的现有表,我使用 Derby 作为元数据存储。

将它们迁移到 Hive 的新安装的最佳方法是什么?

0 投票
4 回答
731 浏览

apache-spark - 当连接键是bucketBy键的超集时,如何说服spark不要进行交换?

在测试生产用例时,我创建并保存(使用 Hive Metastore)这样的表:

我正在运行这样一个查询(在伪代码中)

常识说这个连接应该简单地用一个没有交换的排序合并连接来完成;然而spark做了一个交换然后加入。

即使对于这个特定的用例,我也可以按两个键进行存储,但由于其他一些用例,我需要按 key1 存储。当我使用这样的单个键进行(更简单)连接时:

它按预期工作(即排序合并加入没有交换)。

现在我对这些表进行了优化连接,如果我想过滤,如下所示:

它恢复到交换然后加入。

当连接键是bucketBy键的超集时,如何说服spark不要进行交换?

笔记:

我知道的一个技巧是,如果我将重写为不等式检查,而不是相等性检查,spark 不会洗牌。

(x == y) 也可以表示为 ((x >= y) & (x <= y))。如果我在最后一个示例中应用两个这样的过滤器:

.filter(table1.col(“key2”) >= table2.col(“key2”))

.filter(table1.col(“key2”) <= table2.col(“key2”))

它将继续使用没有交换的排序合并连接,但这不是解决方案,这是一个 hack。

0 投票
0 回答
22 浏览

apache-spark - 2 spark应用程序是否会导致任何一致性

2 spark应用程序是否会导致任何一致性

我有 2 个火花应用程序。一种是通过 Hive Metastore 写入数据,如下所示:

而其他人正在从同一张表中读取数据,如下所示:

如果两个作业并行运行,是否存在第二个应用程序读取的数据不一致的可能性?如果是这样,我该如何避免它

0 投票
1 回答
947 浏览

apache-spark - Apache Spark 的不同 Metastore/数据目录选项?

我可以在 Apache Spark 中使用哪些元存储/数据目录选项?

在最简单的情况下,我可以使用 Hive Metastore——它与 Hive、Spark 和 Presto 配合得很好。我可以在这里使用任何其他数据目录选项吗?

0 投票
1 回答
2925 浏览

hive - 如何在蜂巢中以驼峰形式保留列名

选择“12345”作为“EmpId”;

-- 输出为 empid,值为 12345

任何导致与 EmpId 保持相同列名的线索?

0 投票
0 回答
506 浏览

hive - 使用 Presto 从本地 Linux 机器访问 Spark 表(ADLS 上的 Parquet)

想知道我们是否可以使用来自 Linux 机器的 Hive Metastore 服务 (Presto) 访问带有 MS SQL 作为元存储和 Azure 数据湖上的外部文件的 Spark 外部表。

我们正在尝试通过 Presto 访问在 ADLS 上具有镶木地板文件的 spark delta 表。下面是场景。我想知道是否有可能的方法来实现这一目标。我们只是作为 POC 这样做的,我们相信知道答案将使我们进入下一步。

我们的中央数据存储库是由许多管道创建的所有 spark Delta 表。数据以 Parquet 格式存储。MS SQL 是外部元存储。这些 spark 表中的数据被其他团队/应用程序使用,他们希望通过 Presto 访问这些数据。

我们了解到 Presto 使用 Hive 的 metastore 服务来访问 hive 表的详细信息。我们尝试从 Hive 访问表(考虑这是否有效 Presto 也有效)。但是我们发现不同文件系统存在问题。我们已经在一台 Linux 机器上设置了 Hadoop 和 Hive。版本为 3.1.2 和 3.1.1。Hive 服务正在连接到 SQL 元存储并显示几个基本命令的结果。但是,当访问存储在 ADLS 路径中镶木地板中的实际数据时,它会提示文件系统异常。我理解这个问题是许多文件系统(如(ADFS、HDFS、linux))的交互,但没有找到任何指导我们的博客。请帮忙。

Hive 显示数据库命令:

Hive 列表表:

从 Orders 表查询数据:

如何让我的设置访问 Datalake 文件并引入数据?我相信我的元存储应该具有存储文件的 ADLS 的确切完整路径。如果是,我在 Linux 中的 Hive/Hadoop 将如何理解路径。如果它也可以识别路径,我应该在哪个配置文件中提供访问数据湖的凭据(在任何 .XML 中)不同的文件系统如何交互

请帮忙。感谢所有输入。

0 投票
1 回答
461 浏览

apache-spark - 如何在 Apache Spark 中添加 Hive 支持?

我有以下设置: - HDFS - Hive - 远程 Hive Metastore(和 Metastore 数据库) - Apache Spark(从https://archive.apache.org/dist/spark/spark-2.4 下载和安装。 3/ )

我可以按预期使用 Hive,创建表 - 从 HDFS 读取数据等等。但是,无法通过 Hive 支持运行 spark。每当我跑步val sparkSession = SparkSession.builder().appName("MyApp").enableHiveSupport().getOrCreate()

我明白了java.lang.IllegalArgumentException: Unable to instantiate SparkSession with Hive support because Hive classes are not found.

Hive 类在路径中,我已经复制了 hive-site.xml、core-site.xml 和 hdfs-site.xml

我是否需要在配置单元支持的情况下构建火花(如此处所述:https ://spark.apache.org/docs/latest/building-spark.html#building-with-hive-and-jdbc-support )才能获得火花与蜂巢一起工作?

是否有可用的带有 Hive 支持 tar 的 Spark,我可以提取它而不是从源代码构建?

谢谢!