hadoop - 关于 Hadoop 和 Hive 和 Presto 的问题

Question

我正在考虑在我们的 Hadoop 集群上使用 Hive，然后使用 Presto 对存储在 Hadoop 中的数据进行一些分析，但我仍然对一些事情感到困惑：

文件存储在 Hadoop（某种文件管理器）中
Hive 需要表来存储来自 Hadoop（数据管理器）的数据
- Hadoop 和 Hive 是分开存储它们的数据还是 Hive 只使用来自 Hadoop 的文件？（就硬盘空间等而言？）-> 那么 Hive 是否从表中的 Hadoop 导入数据并单独留下 Hadoop，或者我必须如何看到这个？
Presto 可以在没有 Hive 的情况下直接在 Hadoop 上使用吗？

提前感谢您回答我的问题:)

score 3 · Accepted Answer

首先要做的事情是：文件存储在 Hadoop 分布式文件系统 ( HDFS ) 中。这就是你所说的数据管理器吗？

实际上，Hive 可以同时使用 HDFS 中的“常规”文件或表，这些文件又是“常规”文件，附加元数据存储在特殊数据存储（称为仓库）中。

关于 Presto - 它内置了对 Hive Metastore 的支持，但您也可以为任何数据源编写自己的连接器插件。

请在此处阅读有关 Hive 连接器配置和有关连接器插件的更多信息。

1 回答 1