0

您对 HDP 集群上的 RAID1 有何体验?

我有两个选择:

  1. 为 master 和 zoo 节点设置 RAID 1,并且根本不要在从节点上使用 RAID,例如 kafka brokers、hbase regionservers 和 yarn nodemanager's。

即使我失去了一个从节点,我也会有另外两个副本。在我看来,RAID 只会减慢我的集群速度。

  1. 尽管如此,使用 RAID 1 设置所有内容。

你怎么看待这件事?您对 HDP 和 RAID 有什么体验?您如何看待将 RAID 0 用于从节点?

4

1 回答 1

1

我建议在 Hadoop 主机上根本不使用 RAID。有一个警告,如果您正在运行像 Oozie 和 Hive 元存储这样在幕后使用关系数据库的服务,raid 可能在数据库主机上很有意义。

在主节点上,假设您有 Namenode、zookeeper 等 - 通常冗余内置于服务中。对于名称节点,所有数据都存储在两个名称节点上。对于 Zookeeper 来说,如果你丢失了一个节点,那么其他两个节点就会拥有所有信息。

Zookeeper 喜欢快速磁盘 - 理想情况下,将完整磁盘专用于 zookeeper。如果您有 namenode HA,请给 namenode 编辑目录和每个日志节点一个专用磁盘。

对于从属节点,datanode 将跨所有磁盘写入,无论如何都会有效地对数据进行条带化。每个“写入”最多为 HDFS 块大小,因此如果您正在写入一个大文件,您可以在磁盘 1 上获得 128MB,然后在磁盘 2 上获得下一个 128MB 等等。

于 2016-09-20T13:55:47.107 回答