我无法使用 Apache Falcon 将数据从一个 Hadoop 集群备份到另一个集群。
从一个集群到另一个集群的数据备份有哪些方法?
是否有任何流程实体或 oozie 工作流需要使用 Apache Falcon 将数据从一个集群备份到另一个集群?
我无法使用 Apache Falcon 将数据从一个 Hadoop 集群备份到另一个集群。
从一个集群到另一个集群的数据备份有哪些方法?
是否有任何流程实体或 oozie 工作流需要使用 Apache Falcon 将数据从一个集群备份到另一个集群?
Apache falcon 提供了将数据备份到另一个 hadoop 集群和 amazon s3 的选项。microsoft azure 正在计划中,但我不确定它的当前状态。
可以使用 feed 的 Replication 功能进行数据备份。请参阅http://falcon.apache.org/FalconDocumentation.html#Replication 了解更多详情。
您将需要提交集群 xml 和一个供稿 xml 以进行复制(在您的情况下进行备份)。集群 xmls 将包含集群的详细信息,您希望将数据从何处复制到何处。
Apache Falcon 使用 Feed 复制提供从一个 hadoop 集群到另一个集群的直接复制。定义集群(每个集群用于每个 hadoop 集群)并定义具有这 2 个集群的提要,同时将一个标记为 type="source",一个标记为 type="target"(源集群到目标集群复制)。提交并安排提要,您的复制将开始。