0

是的,我知道 TTL;是的,我正在配置它;不,这不是我在这里要问的。


  • 为 Dataflow启动一个初始集群大约需要5 分钟

  • 开始从现有的“温暖”集群(即使用 TTL 保持“活动”状态的集群)获取计算,对于新的数据流,似乎仍需要1-2 分钟

这些数字非常大,特别是如果您有一个多步骤 ETL 流程,并且已经将您的管道分解为单独的关注点(或者如果您在循环中执行数据流,以处理每个源日的数据)

控制 TTL 可以让我对触发这两种可能性中的哪一种进行一些控制,但即使是 2 分钟也可能是相当大的开销。(我有一个管道,其中一半的执行时间正在等待那些 1-2 分钟的“获取计算”启动)

我是否有任何控制权每种情况下启动需要多长时间?有什么我可以做的来加快启动速度,或者我应该避免什么以防止事情变得更糟

4

1 回答 1

0

镇上有一个新功能,可以完全解决这个问题。

发布博客:

https://techcommunity.microsoft.com/t5/azure-data-factory/how-to-startup-your-data-flows-execution-in-less-than-5-seconds/ba-p/2267365

ADF 在 Azure 集成运行时中为数据流 TTL 添加了一个新选项:快速重用。... 通过选择带有 TTL 设置的重用选项,您可以指示 ADF 在管道中执行最后一个数据流之后的一段时间内维护 Spark 集群。这将在数​​据流活动中使用相同的 Azure IR 提供更快的顺序执行。

在此处输入图像描述

于 2021-04-20T16:25:26.977 回答