现在尘埃落定,我们可以从最近的Amazon EC2 和 Amazon RDS 服务中断中了解如何构建分布式系统?
问问题
388 次
2 回答
2
感谢您提供有趣的链接。显然,每个分布式系统都是不同的,每次中断都是独一无二的,因此很难一概而论。我的一些做法是:
即使是街区中最优秀的人也会发生停电……所以你最好为你的人做计划。
构建分布式系统很难......所以你需要经验和经验丰富的朋友。
手动更改是一个常见原因……在 AWS 文章中没有明确说明,但强烈暗示。
中断通常是“紧急”现象,其中一个简单的错误会导致许多系统以指数增长的方式进行交互。AWS 文章将此称为“风暴”,我在大型分布式系统中目睹了类似的“风暴”。耦合程度和退避参数等简单方面可以使干扰呈指数增长或呈指数衰减。想想 Tacoma Narrows 桥 - 也许这个类比是一个延伸,但调整一些简单的参数可以避免破坏性共振。
Netflix Chaos Monkey 很有趣。“精益”人员告诉我们,如果某件事很困难(例如测试或部署),那么您应该经常这样做,直到不再困难为止。也许系统故障/弹性是这种方法的下一个前沿。
于 2011-05-02T11:50:01.290 回答
0
现在 Netflix 的 Chaos Monkey 更有意义了。查看Netflix 技术博客
于 2011-05-02T02:53:53.950 回答