1

我在 Azure 数据工厂中执行 ETL,我只是想在继续之前确认我对它的理解。请在下面找到图片。

在此处输入图像描述

我正在从多个源收集数据并存储在 Azure Blob 存储中,然后执行转换和加载。我感到困惑的是,就我而言,Azure Blob 存储是这里的登陆区还是暂存区。有些人可以互换使用这些术语,无法理解这两个术语之间的细微差别。

另外,谁能解释一下Extract,Transform和Load是哪一部分。在我的理解中,从多个源收集数据并存储到 Azure Blob 存储是提取,Azure 数据工厂是转换,将转换后的数据复制到 Azure 数据库是加载。我是正确的还是我在这里误解了什么?

4

1 回答 1

2

我感到困惑的是,就我而言,Azure Blob 存储是这里的登陆区还是暂存区。

在您的情况下,Azure Blob 存储既是着陆区又是暂存区。着陆区是指从不同地方收集数据的区域。暂存区是指它只保存一小段时间的数据,暂存数据在ETL过程中应该被删除。

另外,谁能解释一下Extract,Transform和Load是哪一部分。

Copy Activity是一种典型的基于ETL的技术。如果只谈 Azure 数据工厂的 Copy Activity,在你指定了复制源之后,ADF 会基于此执行复制活动,这就是 'extract'。ADF 中根据您的设置将数据传输到指定 Sink 的部分,即“Load”,复制行为的详细信息为“Transform”。如果您查看整个过程,您将数据收集到 blob 存储也是“提取”。

于 2020-06-08T10:13:13.033 回答