2

我是 Hadoop 新手,对 Hadoop 管理很感兴趣,所以我尝试在 Ubuntu 12.04 中以伪分布式模式安装 Hadoop 2.2.0 并成功安装并运行一些示例 jar 文件,现在我正在尝试进一步学习,尝试学习数据现在备份和恢复部分,任何人都可以告诉如何在 hadoop 2.2.0 中备份和恢复数据,还请推荐任何关于 Hadoop 管理的好书和学习 Hadoop 管理的步骤。

提前致谢。

4

1 回答 1

1

Hadoop 中没有经典的备份和恢复功能。有几个原因:

  • HDFS 使用块级复制通过冗余来保护数据。
  • HDFS 可以大规模扩展,并且备份到磁盘而不是磁带变得更加经济。
  • “大数据”的规模并不适合轻松备份。

Hadoop 不使用备份,而是使用数据复制。在内部,它为每个数据块创建多个副本(默认情况下,3 个副本)。它还有一个名为“distcp”的功能,允许您在集群之间复制数据副本。这是大多数 Hadoop 操作员通常为“备份”所做的事情。

一些公司,如 Cloudera,正在将 distcp 工具整合到为他们的 Hadoop 分发创建“备份”或“复制”服务中。它针对 HDFS 中的特定目录进行操作,并将其复制到另一个集群。

如果你真的想为 Hadoop 创建一个备份服务,你可以自己手动创建一个。您将需要一些访问数据的机制(NFS 网关、webFS 等),然后可以使用磁带库、VTL 等来创建备份。

于 2014-03-16T02:13:40.010 回答