我在 Centos7 中使用 Pacemaker + Corosync,我创建了自己的资源代理并创建了一个自定义资源来运行我拥有的一些脚本。

在我的资源代理中,我有一个监控功能,每 x 分钟检查一次,当这个监控功能失败时,我返回“OCF_ERR_GENERIC”,因此所有资源都失败了。

当我执行命令“PCS status”时,我可以看到资源已停止/失败,并且还可以在“失败的操作”中看到有关“未知错误”失败的消息:

[root@pcmk01 opt]# pcs status
Cluster name: opt_cluster
Stack: corosync
Current DC: pcmk02-cr (version 1.1.15-11.el7_3.2-e174ec8) - partition with quorum
Last updated: Mon Jan 30 10:21:36 2017          Last change: Mon Jan 30 10:15:46 2017 by hacluster via crmd on pcmk02-cr

2 nodes and 5 resources configured

Online: [ pcmk01-cr pcmk02-cr ]

Full list of resources:

 Master/Slave Set: myoptClone01 [myopt_data01]
     Masters: [ pcmk01-cr ]
     Slaves: [ pcmk02-cr ]
 myopt_fs01     (ocf::heartbeat:Filesystem):    Started pcmk01-cr
 myopt_VIP01    (ocf::heartbeat:IPaddr2):       Started pcmk01-cr
 ServicesResource        (ocf::heartbeat:RADviewServices):       Stopped

Failed Actions:
* ServicesResource_monitor_120000 on pcmk02-cr **'unknown error'** (1): call=141, status=complete, exitreason='none',
    last-rc-change='Mon Jan 30 10:19:36 2017', queued=0ms, exec=142ms



1 回答 1


我不相信在crm_monor的输出中会出现更具描述性的错误pcs status。但是,这些输出中的错误确实为失败添加了时间戳。在您的自定义资源代理中,您可以在错误期间将任何您喜欢的内容输出到日志中。然后,您可以检查pcs status输出中显示的时间戳周围的日志,以获取有关故障的更准确信息。

于 2017-01-30T17:50:34.553 回答