hadoop - hadoop 2.2.0 中的数据备份和恢复

Question

我是 Hadoop 新手，对 Hadoop 管理很感兴趣，所以我尝试在 Ubuntu 12.04 中以伪分布式模式安装 Hadoop 2.2.0 并成功安装并运行一些示例 jar 文件，现在我正在尝试进一步学习，尝试学习数据现在备份和恢复部分，任何人都可以告诉如何在 hadoop 2.2.0 中备份和恢复数据，还请推荐任何关于 Hadoop 管理的好书和学习 Hadoop 管理的步骤。

提前致谢。

score 1 · Accepted Answer

Hadoop 中没有经典的备份和恢复功能。有几个原因：

HDFS 使用块级复制通过冗余来保护数据。
HDFS 可以大规模扩展，并且备份到磁盘而不是磁带变得更加经济。
“大数据”的规模并不适合轻松备份。

Hadoop 不使用备份，而是使用数据复制。在内部，它为每个数据块创建多个副本（默认情况下，3 个副本）。它还有一个名为“distcp”的功能，允许您在集群之间复制数据副本。这是大多数 Hadoop 操作员通常为“备份”所做的事情。

一些公司，如 Cloudera，正在将 distcp 工具整合到为他们的 Hadoop 分发创建“备份”或“复制”服务中。它针对 HDFS 中的特定目录进行操作，并将其复制到另一个集群。

如果你真的想为 Hadoop 创建一个备份服务，你可以自己手动创建一个。您将需要一些访问数据的机制（NFS 网关、webFS 等），然后可以使用磁带库、VTL 等来创建备份。

hadoop - hadoop 2.2.0 中的数据备份和恢复

1 回答 1

Related

Reference