研究了混沌原理,找了一些开源项目,比如阿里巴巴开源的chaosblade ,vmware开源的mangle。
这些工具都是故障注入工具,对被测系统不做任何分析。
根据混沌原理,我们应该
1.首先将“稳态”定义为系统的一些可测量输出,表明正常行为。
2.假设这种稳定状态将在对照组和实验组中继续存在。
3. 引入反映现实世界事件的变量,例如服务器崩溃、硬盘驱动器故障、网络连接中断等。
4.尝试通过寻找对照组和实验组之间的稳态差异来反驳假设。
那么我们如何进行第 4 步呢?我们是否应该使用监控系统来监控一些主要的指标,以检查故障注入后系统的状态。
有什么好的建议或最佳实践吗?