0

我对 Hadoop 生态系统有几个疑问。渴望很好地理解这些概念。

  1. Hive 表在哪里存储数据?
  2. 对于 Datawarehouse,我们是否需要在 Hive 和 Hbase 表中都有相同的数据。
  3. 我们如何从 Hbase 插入、更新、读取数据。
  4. HDFS 可以存储除 csv 之外的所有文件格式。
  5. 我们可以在 Hbase 上有 PIG 吗?
  6. 如果我有 Hive,我可以省略 Hbase 表吗?
4

1 回答 1

2

答案,按顺序:

  1. Hive 通常将数据存储在其配置的文件系统目录下的以表命名的目录中,通常是 的 HDFS 目录/user/hive/warehouse,可通过 的hive-site.xml属性进行调整hive.metastore.warehouse.dir
  2. Hive 和 HBase 是两个不同的表存储概念。前者没有记录或随机读/写的概念。它们之间唯一的共同点是连接器 Hive 必须读取存储在 HBase 的服务器/格式下的表数据。
  3. HBase 参考指南详细介绍了这一点。最简单的方法是使用hbase shell.
  4. HDFS 是一个普通文件系统(仅分布式),类似于您的 Unix 或 Windows 文件系统,因此不关心您存储在其上的数据类型。你可以存储任何你想要的东西,前提是你还有读写器逻辑可供以后消化它。
  5. Pig 确实提供了HBaseStorage内置存储访问方法作为其核心的一部分,让您可以在 Pig 脚本中访问和表示 HBase 行数据。
  6. 见(2)。除非您希望它们相互关联,否则两者都是不相关的,因此答案是肯定的。
于 2012-12-31T00:01:28.977 回答