0

我有一个与雪花有关的问题。实际上,在我目前的角色中,我计划将数据从 ADLS(Azure 数据湖)迁移到 Snowflake。我现在正在寻找 2 个选项

  1. 创建 Snowpipe 以加载更新的数据
  2. 为相同创建气流作业。

我仍在尝试了解哪种方法是最好的方法,以及选择每种方法的优缺点是什么。

4

2 回答 2

0

如果您使用 Snowpipe 而不是 Airflow,您将能够以更低的延迟加载更多的数据。在我看来,管理 Snowpipe 也会更容易。

Airflow 是一个批处理调度程序,使用它来调度运行频率超过 5 分钟的任何事情都会变得难以管理。此外,您必须使用 Airflow 自己管理扩展。Snowpipe 是一种无服务器选项,可以根据看到的卷进行扩展和缩减,您将在 2 分钟内看到您的数据。

唯一应该限制您使用 Snowpipe 的是成本。虽然,如果您认为您也需要有人来管理您的 Airflow 管道,您可能会发现从长远来看 Snowpipe 最终会更便宜。

于 2020-11-20T10:12:06.553 回答
0

这取决于您在此迁移中尝试做什么。如果它是一个普通的香草(没有转换,没有复杂的验证)数据从 ADLS 迁移到 Snowflake,那么你可能对 SnowPipe 很好(但也请检查你的场景是否适合 Snowpipe 或 Bulk Copy- https: //docs.snowflake.com/en/user-guide/data-load-snowpipe-in​​tro.html#recommended-load-file-size)。

如果您在将数据移动到雪花之前有很多步骤,并且将来可能需要更改工作流程,则最好使用 Airflow,这将为您提供更大的灵活性。在我的一次迁移中,我使用了 Airflow,而在另一次迁移中使用了 CONTROL-M

于 2020-11-20T08:50:48.707 回答