2

所以在启动节点 1 时不显示节点 2,类似地节点 2 在 crm_mon 命令中不显示节点 1

在分析 corosync 日志后,我发现由于多次重传失败,两个节点都将彼此标记为已死,所以我尝试停止并启动 corosync 和起搏器,但它们仍然没有形成集群,并且在 crm_mon 中没有相互显示

节点2的日志:

对于 srv-vme-ccs-02

10 月 30 日 02:22:49 srv-vme-ccs-02 crmd[1973]:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-01[2544637100] - 状态现在是成员(原为(空)

迄今为止是会员

10 月 30 日 10:07:34 srv-vme-ccs-02 corosync[1613]:[TOTEM] 转发列表:117 Oct 30 10:07:35 srv-vme-ccs-02 corosync[1613]:[TOTEM] 转发列表: 118 Oct 30 10:07:35 srv-vme-ccs-02 corosync [1613]:
[TOTEM] 未能收到 10 月 30 日 10:07:49 srv-vme-ccs-02 arpwatch: bogon 192.168.0.120
d4:be:d9:af:c6:23 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] 通知:pcmk_peer_update:第 232 环上的过渡成员资格事件:memb=1,new= 0, lost=1 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] info: pcmk_peer_update: memb: srv-vme-ccs-02 2561414316 Oct 30 10:07:59 srv- vme-ccs-02 corosync[1613]:[pcmk] 信息:pcmk_peer_update:丢失:srv-vme-ccs-01 2544637100 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]:[pcmk] 通知:pcmk_peer_update:环 232 上的稳定成员事件:memb=1,new=0,lost=0 Oct 30 10:07:59 srv-vme-ccs-02 corosync [1613]:[pcmk] 信息:pcmk_peer_update:MEMB:srv -vme-ccs-02 2561414316 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk ] info: ais_mark_unseen_peer_dead: 节点 srv-vme-ccs-01 在之前的转换中没有看到10 月 30 日 10:07:59 srv-vme-ccs-02 corosync [1613]:
[pcmk] 信息:update_member:节点 2544637100/srv-vme-ccs-01 现在:丢失 10 月 30 日 10:07:59 srv-vme-ccs-02 corosync[1613]:[pcmk] 信息:send_member_notification:发送会员更新232 到 2 个孩子 10 月 30 日 10:07:59 srv-vme-ccs-02 corosync[1613]: [TOTEM] 一个处理器加入或离开了成员,并形成了一个新的成员。10 月 30 日 10:07:59 srv-vme-ccs-02 corosync[1613]: [CPG ] 选择了 downlist: sender r(0) ip(172.20.172.152) ; 成员(旧:2 左:1)10 月 30 日 10:07:59 srv-vme-ccs-02 crmd [1973]:通知:plugin_handle_membership:成员资格 232:法定人数丢失 10 月 30 日 10:07:59 srv-vme-ccs- 02 corosync[1613]: [MAIN ] 服务同步完成,准备提供服务。10 月 30 日 10:07:59 srv-vme-ccs-02 cib [1968]:通知:plugin_handle_membership:成员资格 232:仲裁丢失 10 月 30 日 10:07:59 srv-vme-ccs-02 crmd[1973]:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-01[2544637100] - 状态现在丢失(曾是成员)10 月 30 日 10:07 :59 srv-vme-ccs-02 cib[1968]:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-01[2544637100] - 状态现在丢失(曾是成员) 10 月 30 日 10:07:59 srv-vme -ccs-02 crmd[1973]:警告:reap_dead_nodes:我们的 DC 节点 (srv-vme-ccs-01) 离开了集群

现在 srv-vme-ccs-01 不再是会员

在另一个节点上,我发现了类似的重传失败日志

节点1的日志

对于 srv-vme-ccs-01

[2000] 10 月 30 日 09:48:32 [2000] srv-vme-ccs-01 pengine:信息:确定在线状态:节点 srv-vme-ccs-01 在线 [2000] 10 月 30 日 09:48:32 srv-vme-ccs-01 pengine:信息:确定在线状态:节点 srv-vme-ccs-02 在线

ct 30 09:48:59 [2001] srv-vme-ccs-01 crmd:信息:update_dc:未设置 DC。是 srv-vme-ccs-01 Oct 30 09:48:59 corosync [TOTEM] 重发列表:107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 10 月 30 日 09:48:59 corosync [TOTEM ]重传列表:107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 118

10 月 30 日 10:08:22 corosync [TOTEM] 处理器发生故障,形成新配置。10 月 30 日 10:08:25 corosync [pcmk] 通知:pcmk_peer_update:第 232 环上的过渡成员资格事件:memb=1,new=0,丢失=1 10 月 30 日 10:08:25 corosync [pcmk] 信息:pcmk_peer_update:memb: srv-vme-ccs-01 2544637100 10 月 30 日 10:08:25 corosync [pcmk] 信息:pcmk_peer_update:丢失:srv-vme-ccs-02 2561414316 10 月 30 日 10:08:25 corosync [pcmk] 通知:pcmk_peer_update:稳定成员环 232 上的事件:memb=1,new=0,lost=0 10 月 30 日 10:08:25 corosync [pcmk] 信息:pcmk_peer_update:MEMB:srv-vme-ccs-01 2544637100 10 月 30 日 10:08:25 corosync [ pcmk ] info: ais_mark_unseen_peer_dead: 节点 srv-vme-ccs-02 在之前的转换中没有看到10 月 30 日 10:08:25 corosync [pcmk] 信息:update_member:节点 2561414316/srv-vme-ccs-02 现在:丢失 10 月 30 日 10:08:25 corosync [pcmk] 信息:send_member_notification:将成员资格更新 232 发送到 2儿童 10 月 30 日 10:08:25 corosync [TOTEM] 一个处理器加入或离开了会员,并形成了一个新的会员。[1996 年 10 月 30 日 10:08:25] srv-vme-ccs-01 cib:通知:plugin_handle_membership:
成员资格 232:法定人数丢失 [1996 年 10 月 30 日 10:08:25] srv-vme-ccs-01
cib:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-02[2561414316] - 状态现在丢失(曾是成员)10 月 30 日 10:08:25 corosync [CPG] 已选择下列表:发件人 r(0) ip(172.20 .172.151);成员(旧:2 左:1)10 月 30 日 10:08:25 [2001] srv-vme-ccs-01 crmd:通知:plugin_handle_membership:
成员资格 232:法定人数丢失 10 月 30 日 10:08:25 [2001] srv-vme -ccs-01
crmd:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-02[2561414316] - 状态现在丢失(曾是成员)10 月 30 日 10:08:25 [2001] srv-vme-ccs-01 crmd : info: peer_update_callback: srv-vme-ccs-02 is now lost (was member) Oct 30 10:08:25 corosync [MAIN ] 已完成服务同步,准备提供服务。10 月 30 日 10:08:25 [2001] srv-vme-ccs-01
crmd:警告:match_down_event:与 srv-vme-ccs-02 Oct 30 10:08:25 [1990] srv-vme-ccs-01 上的关机操作不匹配:
信息:crm_cs_flush:发送 0 条 CPG 消息(剩余 1 条, last=9): 再试一次 (6)

[2001 年 10 月 30 日 10:08:25] srv-vme-ccs-01 crmd:信息:join_make_offer:跳过 srv-vme-ccs-01:已知 10 月 30 日 10:08:25 [2001] srv-vme-ccs -01 crmd:info:update_dc:将 DC 设置为 srv-vme-ccs-01 (3.0.7) Oct 30 10:08:25 [1996] srv-vme-ccs-01
cib:info:cib_process_request:已完成 cib_modify 操作crm_config 部分:OK (rc=0, origin=local/crmd/185, version=0.116.3)

因此,同时在两个节点上重传消息严重(在服务器突然重新启动后发生)并且两个节点都将对方标记为丢失的成员并形成单独的集群将自己标记为 DC

4

1 回答 1

4

我得到了这个解决方案:

首先,在 tcpdump 中,pacemkaer 正在使用多播,在与网络团队进行调查后,我们得知多播未启用。

因此,当我们删除 mcastaddere 并重新启动 corosync 和 pacemaker 时,但 corosyn 拒绝启动并说错误:

corosync.conf 中没有定义 mcastaddress。

Laster 在调试时发现 synaxt for

交通:udpu

不正确,它的作者如下:

运输=udpu

因此,corosync 默认运行的是多播模式。

因此,更正 corosync.conf 后问题得到解决。

于 2017-12-11T08:16:53.637 回答