是的,我知道 TTL;是的,我正在配置它;不,这不是我在这里要问的。
为 Dataflow启动一个初始集群大约需要5 分钟。
开始从现有的“温暖”集群(即使用 TTL 保持“活动”状态的集群)获取计算,对于新的数据流,似乎仍需要1-2 分钟。
这些数字非常大,特别是如果您有一个多步骤 ETL 流程,并且已经将您的管道分解为单独的关注点(或者如果您在循环中执行数据流,以处理每个源日的数据)
控制 TTL 可以让我对触发这两种可能性中的哪一种进行一些控制,但即使是 2 分钟也可能是相当大的开销。(我有一个管道,其中一半的执行时间正在等待那些 1-2 分钟的“获取计算”启动)
我是否有任何控制权,每种情况下启动需要多长时间?有什么我可以做的来加快启动速度,或者我应该避免什么以防止事情变得更糟!