我是 Hadoop 新手,对 Hadoop 管理很感兴趣,所以我尝试在 Ubuntu 12.04 中以伪分布式模式安装 Hadoop 2.2.0 并成功安装并运行一些示例 jar 文件,现在我正在尝试进一步学习,尝试学习数据现在备份和恢复部分,任何人都可以告诉如何在 hadoop 2.2.0 中备份和恢复数据,还请推荐任何关于 Hadoop 管理的好书和学习 Hadoop 管理的步骤。
提前致谢。
Hadoop 中没有经典的备份和恢复功能。有几个原因:
Hadoop 不使用备份,而是使用数据复制。在内部,它为每个数据块创建多个副本(默认情况下,3 个副本)。它还有一个名为“distcp”的功能,允许您在集群之间复制数据副本。这是大多数 Hadoop 操作员通常为“备份”所做的事情。
一些公司,如 Cloudera,正在将 distcp 工具整合到为他们的 Hadoop 分发创建“备份”或“复制”服务中。它针对 HDFS 中的特定目录进行操作,并将其复制到另一个集群。
如果你真的想为 Hadoop 创建一个备份服务,你可以自己手动创建一个。您将需要一些访问数据的机制(NFS 网关、webFS 等),然后可以使用磁带库、VTL 等来创建备份。