我们目前正在准备 hazelcast 在接下来的几周内上线。还有一个更大的问题,它困扰着我们的 OPs 部门,如果我们无法解决它,它可能会成为阻碍。
由于我们正在维护一个高可用性支付应用程序,因此我们必须在集群不可用的情况下生存下来。原因可能是:
- 有人弄乱了 hazelcast 配置,集群上的地图增加,直到我们有 OOM(在测试系统上有这个)。
- 网卡/硬件存在一些问题,会暂时中断与集群的连接
- OP 人员重新配置了防火墙并意外阻止了一些必要的端口,无论如何。
- 不管怎么说
我花了一些时间寻找好的现有解决方案,但目前唯一的解决方案是增加备份服务器的数量,这当然不能解决问题。
在我当前的测试期间,应用程序完全停止工作,因为在某些重试后客户端从集群断开连接并且休眠二级缓存不再工作。由于我们在整个生态系统中使用 hazelcast,这几乎会立即杀死 40 个 java 客户端。
因此,我想知道当集群关闭时,我们如何才能实现应用程序仍然以更慢的方式工作。我们目前的方法是切换到 ehcache 本地缓存,但我认为该问题也应该有 hazelcast 解决方案?