混沌工程实践正变得非常广泛使用。一个常见的例子是 Netflix 自己的Chaos Monkey。但是,Chaos Monkey 经常针对随机目标临时运行。我很好奇混沌实验如何在典型的CI/CD 管道中发挥作用,以增强特定服务的弹性。
- 由于混沌实验(通常)需要一个功能齐全的环境,它们什么时候运行?它会与测试并行运行,还是在下游运行?
- 你会在每次提交时进行混沌实验,还是只做一些?
- 混沌实验可以运行多长时间?例如,60 分钟的 CPU 峰值可能会干扰“快速失败”方法。
- 混沌实验会让管道失败吗?什么会构成“失败”?