在最近发生整个 AZ 因中断而丢失的事件之后,我想更好地了解 Dataflow 故障转移过程。
当我手动删除数据流作业(流式传输、PubSub 到 BigQuery)的工作节点时,它们已成功重新创建/重新启动,但数据流进程本身尚未恢复。
即使所有状态都正常,但数据项并没有流动。
重新启动流程的唯一方法是取消作业并重新提交。
即使我知道手动删除不是一个有效的测试,我们也不能忽视人为错误的因素。
我的理解是工作流应该已经自动重新启动,但这里没有观察到这种情况。
我想念什么?
在最近发生整个 AZ 因中断而丢失的事件之后,我想更好地了解 Dataflow 故障转移过程。
当我手动删除数据流作业(流式传输、PubSub 到 BigQuery)的工作节点时,它们已成功重新创建/重新启动,但数据流进程本身尚未恢复。
即使所有状态都正常,但数据项并没有流动。
重新启动流程的唯一方法是取消作业并重新提交。
即使我知道手动删除不是一个有效的测试,我们也不能忽视人为错误的因素。
我的理解是工作流应该已经自动重新启动,但这里没有观察到这种情况。
我想念什么?