2

两个Node集群Node A、Node B。

服务 X 在节点 A 上运行,节点 B 是 DC。

我们将堆栈 corosync 与 Pacemaker 一起使用。失败超时为 10 秒。目标角色已启动。

事件发生如下 节点 A 向节点 B 发送事件 服务 X 已关闭 节点 B 打印 Ignoring expired failure for Service X 在此服务 X 永远不会被集群重新启动之后。

现在的问题是:

  1. 为什么 Node B (DC) 忽略过期故障?
  2. 即使此时 DC 被忽略,但由于服务 X 已关闭,节点 A 应监视服务并再次将故障状态发送到节点 B,此时节点 B 应重新启动服务。为什么这没有发生?
4

2 回答 2

3

造成这种情况的一个原因可能是两台服务器(DC 和其他机器)之间的时间差。

所以,DC认为这个事件已经过时了,不予理会。请同步时间,然后尝试重新创建问题。

于 2017-09-28T18:29:36.153 回答
1

您可以将以下属性添加到您的 crm 配置中,该配置将尝试启动失败、过期的资源。

 start-failure-is-fatal="false"
于 2015-10-05T05:18:59.337 回答