场景是我们在生产中使用有状态服务的 Service Fabric 应用程序。发生了一些不好的事情,导致系统状态变得不一致。我们需要修复导致损坏状态的问题,但我们需要非常快速地修复状态。
这里有几个问题想听听大家的看法:
我们如何可视化服务中的数据?我们是否应该实现某种“转储数据”功能,以便我们可以掌握发生了什么?即使使用调试器,也很难看到服务中的数据。
一旦我们确定了哪些数据已损坏,我们将希望快速修复它以让我们的客户再次运行。在找出问题的根本原因之前,我们可能希望这样做。我假设我们需要部署所有受影响服务的新版本,其中包含一些特殊的一次性代码来修复损坏。还有其他建议吗?