ncache - 在另一个实例脱机后，在单个集群上运行的 NCache 集群缓存出现问题

Question

我们有一个具有两个实例的复制集群缓存设置，当两个实例都在线时一切运行良好，并且我们使用的是 Community Edition 4.8。

当我们使实例脱机时，缓存管理变得非常缓慢，甚至从 NCache Manager GUI 停止和启动缓存也需要很长时间，然后显示一条消息，指出存在无法访问的实例。

此外，当尝试从缓存中获取数据或向其中添加数据时，它会给出操作超时异常，并且仍在运行的单个实例没有响应。

据我了解，这种情况应该由缓存服务本身处理，因为它被复制了，并且它应该处理离线实例的故障。

谢谢，

score 0 · Accepted Answer

当服务器节点之一从缓存集群中删除时，我想解释一下您的应用程序运行缓慢的原因。

每当一个节点从缓存集群中删除时，幸存的节点/节点就会进入恢复过程并尝试重新建立与该停机服务器节点的连接。默认情况下，此连接重试值设置为“2”，这意味着幸存节点将尝试与宕机节点重新连接两次，并且在重新连接失败后，缓存集群将考虑宕机服务器并离线，集群将启动像以前一样处理请求。此重新连接过程最多可能需要 90 秒，因为这是默认的 TCP/IP 超时间隔，如果连接重试设置为“2”，则恢复过程可能需要大约 200 秒。当集群处于恢复模式时，您的应用程序（或 NCache 管理器调用）可能会在这 2 到 3 分钟的时间段内遇到缓慢或请求超时，但一旦恢复过程完成，应用程序应该开始工作而没有任何问题。如果缓慢或请求超时持续超过几分钟

可以从 NCache“Config.ncconf”文件更改连接重试值。增加连接重试次数意味着集群将在恢复过程中花费更多时间。此功能的目的是，如果环境中出现网络故障并且服务器节点之间失去连接，则由于此恢复过程，服务器将自动重新连接。这就是为什么建议将连接重试间隔设置为至少 1 的原因。

ncache - 在另一个实例脱机后，在单个集群上运行的 NCache 集群缓存出现问题

1 回答 1

Related

Reference