我尝试了解 Hadoop 快照的机制(http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html)。不幸的是,官方网站 apache 上的信息量非常有限,所以在这里发布消息。
我在我的 Hadoop 集群上尝试了这个功能。在获取快照之前,我尝试使用hdfs dfsadmin -report
实用程序:
[hdfs@bda11node01 ~]$ hdfs dfsadmin -report
...
DFS Used: 15521319604094 (14.12 TB)
我制作了 durectory 的快照/tmp
并获取子目录:
[hdfs@bda11node01 ~]$ hadoop fs -du -s -h /tmp/.snapshot/snap3
5.1 T /tmp/.snapshot/snap3
令我惊讶的第一件事是快照的大小和拍摄此快照的时间。时间立刻,大小是一样的。让我感到惊讶的第二件事是 hdfs 实用程序的报告:
[hdfs@bda11node01 ~]$ hdfs dfsadmin -report
...
DFS Used: 15521319604094 (14.12 TB)
在此之后,我从 /tmp 目录中删除了一个子目录并运行恢复...该目录已恢复...但我不明白如何。有人可以描述更多细节吗?谢谢!