1

在最近发生整个 AZ 因中断而丢失的事件之后,我想更好地了解 Dataflow 故障转移过程。

当我手动删除数据流作业(流式传输、PubSub 到 BigQuery)的工作节点时,它们已成功重新创建/重新启动,但数据流进程本身尚未恢复。

即使所有状态都正常,但数据项并没有流动。

重新启动流程的唯一方法是取消作业并重新提交。

即使我知道手动删除不是一个有效的测试,我们也不能忽视人为错误的因素。

我的理解是工作流应该已经自动重新启动,但这里没有观察到这种情况。

我想念什么?

4

1 回答 1

2

Dataflow 确实依赖 GCE 来恢复物理故障,因此我们不支持从手动删除节点中恢复。显式删除不会模拟 GCE 中断,因此这不会测试您感兴趣的弹性属性。

于 2016-07-07T18:14:02.177 回答