2

我有一个将数据从 Blob 复制到 Azure Data Lake 的复制活动。Blob 由带有事件中心触发器的 Azure 函数填充。Blob 文件附加了 UNIX 时间戳,这是事件中心中的事件排队时间。Azure 数据工厂每小时触发一次以合并文件并将它们移动到数据湖。

在此处输入图像描述

在源数据集中,我按 UTC 时间中的上次修改日期过滤了开箱即用。我可以使用它,但它限制我在 blob 中使用 Last modified date。我想使用我自己的日期过滤器并决定我想在哪里应用这些过滤器。这在数据工厂中可能吗?如果是,请您指出正确的方向。

在此处输入图像描述

4

1 回答 1

1

无论如何,对于 ADF,我想到的唯一想法是使用Look Up ActivityForEach ActivityFilter Activity的组合。也许它有点复杂。

1.使用查找从 blob 文件中检索数据。

2.使用 ForEach Activity 循环结果并设置数据时间过滤器。

3.在 ForEach Activity 中,执行复制任务。

请参阅此博客以获取一些线索。

查看您对您现在所做的所有任务的描述,我建议您了解Azure 流分析服务。无论数据源是事件中心还是 Azure Blob 存储,ASA 都支持将它们作为输入。它支持 ADL 作为输出

您可以创建一个作业来配置输入和输出,然后使用流行的SQL 语言来过滤您想要的数据。例如Where运算符或DataTime 函数

于 2019-03-27T06:32:55.387 回答