0

我们有一个具有两个实例的复制集群缓存设置,当两个实例都在线时一切运行良好,并且我们使用的是 Community Edition 4.8。

当我们使实例脱机时,缓存管理变得非常缓慢,甚至从 NCache Manager GUI 停止和启动缓存也需要很长时间,然后显示一条消息,指出存在无法访问的实例。

此外,当尝试从缓存中获取数据或向其中添加数据时,它会给出操作超时异常,并且仍在运行的单个实例没有响应。

据我了解,这种情况应该由缓存服务本身处理,因为它被复制了,并且它应该处理离线实例的故障。

谢谢,

4

1 回答 1

0

当服务器节点之一从缓存集群中删除时,我想解释一下您的应用程序运行缓慢的原因。

每当一个节点从缓存集群中删除时,幸存的节点/节点就会进入恢复过程并尝试重新建立与该停机服务器节点的连接。默认情况下,此连接重试值设置为“2”,这意味着幸存节点将尝试与宕机节点重新连接两次,并且在重新连接失败后,缓存集群将考虑宕机服务器并离线,集群将启动像以前一样处理请求。此重新连接过程最多可能需要 90 秒,因为这是默认的 TCP/IP 超时间隔,如果连接重试设置为“2”,则恢复过程可能需要大约 200 秒。当集群处于恢复模式时,您的应用程序(或 NCache 管理器调用)可能会在这 2 到 3 分钟的时间段内遇到缓慢或请求超时,但一旦恢复过程完成,应用程序应该开始工作而没有任何问题。如果缓慢或请求超时持续超过几分钟

可以从 NCache“Config.ncconf”文件更改连接重试值。增加连接重试次数意味着集群将在恢复过程中花费更多时间。此功能的目的是,如果环境中出现网络故障并且服务器节点之间失去连接,则由于此恢复过程,服务器将自动重新连接。这就是为什么建议将连接重试间隔设置为至少 1 的原因。

于 2018-04-17T05:35:12.407 回答