此内容出现在HDFS 文档中。我无法理解最后一行的原因。根据我的说法,如果机架数量更多,我们可以在每个机架上并行写入。这将减少写作的总时间。甚至它说写入成本会增加,因为我们需要将数据传输到多个机架。但无论如何,我们都会将数据传输到机架。
请解释我哪里错了?
http://hadoop.apache.org/docs/stable/hdfs_design.html
NameNode 通过 Hadoop Rack Awareness 中概述的过程确定每个 DataNode 所属的机架 ID。一个简单但非最佳的策略是将副本放置在唯一的机架上。这可以防止在整个机架发生故障时丢失数据,并允许在读取数据时使用来自多个机架的带宽。此策略在集群中均匀分布副本,这使得在组件故障时平衡负载变得容易。 但是,此策略增加了写入的成本,因为一次写入需要将块传输到多个机架。