hadoop - datanode、regionserver在Hbase-hadoop集成中的作用

Question

据我了解，行被插入到 HBase 表中，并作为区域存储在不同的区域服务器中。因此，区域服务器存储数据

同样，就 Hadoop 而言，数据存储在 hadoop 集群中的数据节点中。

假设我在 Hadoop 1.1.1 之上配置了 HBase 0.90.6，如下所示

2 个节点 - 主节点和从节点

主节点充当，
- Hadoop - Namenode、Secondary Namenode、作业跟踪器、数据节点、任务跟踪器
- HBase - Master、RegionServer 和 zookeeper。
从节点充当，
- Hadoop 数据节点和任务跟踪器
- HBase 区域服务器

根据我的说法，表数据是否存储在区域服务器中；那么数据节点和区域服务器的作用是什么？

score 42 · Accepted Answer

数据节点存储数据。区域服务器本质上是缓冲 I/O 操作；数据永久存储在 HDFS（即数据节点）上。我不认为将区域服务器放在您的“主”节点上是一个好主意。

以下是区域管理方式的简化图：

您有一个运行 HDFS（NameNode + DataNodes）的集群，复制因子为 3（每个 HDFS 块被复制到 3 个不同的 DataNodes）。

您在与 DataNodes 相同的服务器上运行 RegionServers。当写入请求到达 RegionServer 时，它首先将更改写入内存和提交日志；然后在某个时候它决定是时候将更改写入 HDFS 上的永久存储。这是数据局部性发挥作用的情况：由于您在同一台服务器上运行 RegionServer 和 DataNode，因此文件的第一个 HDFS 块副本将被写入同一台服务器。另外两个副本将被写入其他 DataNode。因此，服务于该区域的 RegionServer 几乎总是可以访问本地数据副本。

如果 RegionServer 崩溃或 RegionMaster 决定将区域重新分配给另一个 RegionServer（以保持集群平衡）怎么办？新的 RegionServer 将被强制首先执行远程读取，但一旦执行压缩（将更改日志合并到数据中） - 新的文件将由新的 RegionServer 写入 HDFS，并且将在 RegionServer 上创建本地副本（再次，因为 DataNode 和 RegionServer 在同一台服务器上运行）。

注意：如果 RegionServer 崩溃，之前分配给它的区域将被重新分配给多个 RegionServer。

好读：

Tom White，“Hadoop，权威指南”对 HDFS 架构有很好的解释。不幸的是，我没有阅读原始的 Google GFS 论文，所以我不知道它是否容易理解。
谷歌大表文章。HBase 是 Google BigTable 的实现，我发现本文中的架构描述是最容易理解的。

以下是 Google Bigtable 和 HBase 实现之间的命名差异（来自 Lars George，“HBase，权威指南”）：

HBase - 大表
地区 - 平板电脑
RegionServer - 平板服务器
冲洗 - 轻微压实
小压实 - 合并压实
主要压实 - 主要压实
预写日志 - 提交日志
HDFS-GFS
Hadoop MapReduce - MapReduce
MemStore - 内存表
HFile - SSTable
动物园管理员 - 胖乎乎的

hadoop - datanode、regionserver在Hbase-hadoop集成中的作用

1 回答 1

Related

Reference