我的问题是关于心脏起搏器。例如pacemaker集群有两个资源,其中一个正在启动,比如需要3分钟,那么在这3分钟内,如果另一个资源监视器失败,它不会立即调用stop/start方法重新启动而是等待第一个资源开始完成。第一个资源完全启动后,第二个资源开始重新启动,有谁知道为什么吗?非常感谢!我的集群版本:corosync 2.3.4 起搏器 1.1.13
问问题
893 次
2 回答
0
当我在 177 节点上杀死 fm_mgt 服务,然后在 177 上杀死 logserver 服务时,fm_mgt 启动至少需要一个 minite,在这个 minite 中,直到 fm_mgt 完全恢复后才会重新启动 logserver。
crm status
Last updated: Thu Oct 26 06:40:24 2017 Last change: Thu Oct 26 06:36:33 2017 by root via crm_resource on 192.168.2.177
Stack: corosync
Current DC: 192.168.2.179 (version 1.1.13-10.el7-44eb2dd) - partition with quorum
3 nodes and 6 resources configured
Online: [ 192.168.2.177 192.168.2.178 192.168.2.179 ]
Full list of resources:
Clone Set: logserver_replica [logserver]
logserver (ocf::heartbeat:logserver): FAILED 192.168.2.177
Started: [ 192.168.2.178 192.168.2.179 ]
Clone Set: fm_mgt_replica [fm_mgt]
Started: [ 192.168.2.178 192.168.2.179 ]
Stopped: [ 192.168.2.177 ]
于 2017-10-25T14:43:15.947 回答
0
我的集群配置如下。为了调试,我在 ocf 的函数启动中添加了“sleep 60”。
crm configure show
node 168002177: 192.168.2.177
node 168002178: 192.168.2.178
node 168002179: 192.168.2.179
primitive fm_mgt fm_mgt \
op monitor interval=20s timeout=120s \
op stop interval=0 timeout=120s on-fail=restart \
op start interval=0 timeout=120s on-fail=restart \
meta target-role=Started
primitive logserver logserver \
op monitor interval=20s timeout=120s \
op stop interval=0 timeout=120s on-fail=restart \
op start interval=0 timeout=120s on-fail=restart \
meta target-role=Started
clone fm_mgt_replica fm_mgt
clone logserver_replica logserver
property cib-bootstrap-options: \
have-watchdog=false \
dc-version=1.1.13-10.el7-44eb2dd \
cluster-infrastructure=corosync \
stonith-enabled=false \
start-failure-is-fatal=false
于 2017-10-25T14:32:05.173 回答