hawq - 在集群之间复制 HAWQ 数据

Question

我有一个要求，我需要每天将生产 HAWQ 数据库刷新到 QA 环境。

如何将每天的增量从生产转移到 QA 集群。

感谢你的帮助

谢谢维鲁

score 1 · Accepted Answer

无耻的自插 - 看看下面的开放 PR 使用 Apache Falcon 编排 DR 批处理作业，看看它是否符合您的需求。

以下是该过程的概要：

还有一个带有设计说明的 JIRA：

score 0 · Accepted Answer

没有内置工具可以执行此操作，因此您必须编写一些代码。写起来应该不会太难，因为 HAWQ 不支持 UPDATE 或 DELETE。您只需将新数据附加到 QA。

在生产环境中为将数据放入 HDFS 的每个表创建可写外部表。您将使用 PXF 格式来写入数据。
在 QA 中为读取此数据的每个表创建可读的外部表。
第 1 天，您将所有内容写入 HDFS，然后从 HDFS 读取所有内容。
第 2 天+，您从 QA 中找到 max(id)。从表的 HDFS 中删除文件。插入可写的外部表，但过滤查询，以便您仅从 QA 获得大于 max(id) 的记录。最后，通过从外部表中选择所有数据在 QA 中执行插入。

2 回答 2