6

我在 Azure“数据工厂”中设置了一个管道,目的是从存储中获取平面文件并将它们加载到 Azure SQL DB 中的表中。

此管道的模板指定我需要一个开始和结束时间,本教程将其设置为 1 天。

我试图理解这一点。如果它是 Linux 中的 CRON 作业或 Windows Server 中的计划任务,那么我只需告诉它何时开始(即每天早上 6 点),不管它需要多长时间才能完成。

这让我想到了几个相关的问题:

  • 为什么我需要指定结束时间?
  • 如果我不知道运行需要多长时间怎么办?
  • 如果将来设置得太远,是否会冒数据管道无法及时完成的​​风险?
  • 如果我设置得太早,管道会破裂吗?
  • 为什么它被硬编码为日期而不是频率(即它说使用这种格式 - “2014-10-14T16:32:41Z”)

我发现了一个先前的问题,它对如何进行频率而不是硬编码日期有所了解,但是我上面的问题仍然没有得到解决方案的回答。

4

2 回答 2

4

1 天计划只是一个示例,用于强调如果频率设置为每小时 1 天,您将期望 24 个活动窗口的概念,如示例中所示。

为什么我需要指定结束时间?

您不必指定结束时间,如果您愿意,可以让管道无限期运行。但是,您可能出于业务原因设置结束时间,例如与年度业务周期相吻合。整个管道开始和结束时间适用于其中的活动集合。活动将根据您为活动和数据集的可用性设置的频率(每小时、每天等)运行。您还可以设置活动的开始时间,或者偏移或延迟它们(例如,如果您想今天处理昨天的数据),或者设置过去的开始日期以回填数据。

为什么它被硬编码为日期而不是频率?

管道开始和结束是日期而不是频率的原因是因为它是您的管道处于活动状态的总体日期间隔,并且各个处理活动处理它们运行的​​频率和时间。

如果我不知道运行需要多长时间怎么办?

一旦活动开始,他们将运行到完成。如果他们超过了结束日期,管道将根本不会启动新的活动。

如果将来设置得太远,是否会冒数据管道无法及时完成的​​风险?

不,是否及时完成仅与您的集群大小、数据量和并发设置有关。

如果我设置得太早,管道会破裂吗?

看上面

我们提供这种复杂的日程安排,以便您可以在编排多个服务方面拥有更大的灵活性,同时让 ADF 管理云资源,而不仅仅是启动一项 cron 作业。在我们的文档中有更多关于调度的详细信息https://azure.microsoft.com/en-us/documentation/articles/data-factory-scheduling-and-execution/

于 2016-03-09T01:11:36.357 回答
0

为什么我需要指定结束时间?

在 ADF1 中,如果要指定开始时间,则必须指定结束时间。如果您不指定开始和结束时间,那很好,您将能够部署管道,但管道中的活动不会触发。

于 2017-11-01T11:29:35.643 回答