我有一个要求,我需要每天将生产 HAWQ 数据库刷新到 QA 环境。
如何将每天的增量从生产转移到 QA 集群。
感谢你的帮助
谢谢维鲁
无耻的自插 - 看看下面的开放 PR 使用 Apache Falcon 编排 DR 批处理作业,看看它是否符合您的需求。
https://github.com/apache/incubator-hawq/pull/940
以下是该过程的概要:
hawqsync-extract
以捕获已知良好的 HDFS 文件大小(如果同步失败,可防止 HDFS/目录不一致)hawqsync-falcon
,它执行以下步骤:
MASTER_DATA_DIRECTORY
将源(MDD) 压缩包归档到 HDFS还有一个带有设计说明的 JIRA:
没有内置工具可以执行此操作,因此您必须编写一些代码。写起来应该不会太难,因为 HAWQ 不支持 UPDATE 或 DELETE。您只需将新数据附加到 QA。