1

我正在考虑在我们的 Hadoop 集群上使用 Hive,然后使用 Presto 对存储在 Hadoop 中的数据进行一些分析,但我仍然对一些事情感到困惑:

  • 文件存储在 Hadoop(某种文件管理器)中
  • Hive 需要表来存储来自 Hadoop(数据管理器)的数据
    • Hadoop 和 Hive 是分开存储它们的数据还是 Hive 只使用来自 Hadoop 的文件?(就硬盘空间等而言?)-> 那么 Hive 是否从表中的 Hadoop 导入数据并单独留下 Hadoop,或者我必须如何看到这个?
  • Presto 可以在没有 Hive 的情况下直接在 Hadoop 上使用吗?

提前感谢您回答我的问题:)

4

1 回答 1

3

首先要做的事情是:文件存储在 Hadoop 分布式文件系统 ( HDFS ) 中。这就是你所说的数据管理器吗?

实际上,Hive 可以同时使用 HDFS 中的“常规”文件或表,这些文件又是“常规”文件,附加元数据存储在特殊数据存储(称为仓库)中。

关于 Presto - 它内置了对 Hive Metastore 的支持,但您也可以为任何数据源编写自己的连接器插件。

在此处阅读有关 Hive 连接器配置和有关连接器插件更多信息。

于 2014-01-24T09:34:59.187 回答