在大多数 Hadoop 发行版的最新版本中,HDFS 使用报告似乎报告了空间而不考虑复制因子,对吗?
当查看 Namenode Web UI 和/或运行“hadoop dfsadmin -report”命令时,可以看到如下所示的报告:
Configured Capacity: 247699161084 (230.69 GB)
Present Capacity: 233972113408 (217.9 GB)
DFS Remaining: 162082414592 (150.95 GB)
DFS Used: 71889698816 (66.95 GB)
DFS Used%: 30.73%
Under replicated blocks: 40
Blocks with corrupt replicas: 6
Missing blocks: 0
根据这个集群的机器大小,这个报告似乎没有考虑三重复制... IE 如果我将文件放在 HDFS 上,我应该自己考虑三重复制。
例如,如果我在 HDFS 上放置了一个 50GB 的文件,我的 HDFS 是否会危险地接近满(因为该文件似乎会被复制 3 次,用完当前剩余的 150GB)?