用例是:我需要将我的所有数据从 HDFS 集群复制到具有相同主从设置的另一个集群,我将释放以前的集群并开始在新集群中运行我的作业。
我已阅读有关 Apache Falcon 和 Wandisco 不间断 Hadoop 的信息,这有助于此镜像。但是我不确定当我将它们作为我的生态系统的一部分时它们提供的其他优势(这会更有优势?-这取决于我的用例,但我想知道是否有任何特别的优势)。根据您对它们的经验,能否提供 Falcon 与 Wandisco 的类比?
用例是:我需要将我的所有数据从 HDFS 集群复制到具有相同主从设置的另一个集群,我将释放以前的集群并开始在新集群中运行我的作业。
我已阅读有关 Apache Falcon 和 Wandisco 不间断 Hadoop 的信息,这有助于此镜像。但是我不确定当我将它们作为我的生态系统的一部分时它们提供的其他优势(这会更有优势?-这取决于我的用例,但我想知道是否有任何特别的优势)。根据您对它们的经验,能否提供 Falcon 与 Wandisco 的类比?
(免责声明:我在 WANdisco 工作。)
我的观点是产品是互补的。除了数据传输之外,Falcon 还做了很多事情,比如设置数据工作流阶段。WANdisco 的产品进行主动-主动数据复制(这意味着可以等效地使用来自源集群和目标集群的数据)。
在您的用例中,如果您使用 Falcon,那么您实际上是在使用 DistCP 将数据复制到新集群。您可能会进行初始传输以获取大量数据,然后在某些时候您需要进行最终切换以获取所有增量,然后您可以让应用程序在新集群上运行。
如果您使用 WANdisco 的产品进行数据传输,您可以同时使用两个集群,因为复制引擎使用 Paxos 算法协调更改。这可能会使增量迁移更容易。
与 DistCP 相比,您会注意到连续主动-主动复制之间存在差异的其他场景是备份和灾难恢复以及摄取到多个数据中心。希望有帮助。