“corosync”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

143 浏览

ubuntu - 当 corosync/pacemaker 被杀死时自动重生它

如果 Corosync/Pacemaker 使用"kill -9 <corosync-pid>".

是否需要执行任何步骤才能使 corosync 服务自动启动并运行？

2016-10-09T09:48:10.583

0 投票

1 回答

391 浏览

cluster-computing - 有人可以向我解释一下 fence_vmware_soap 是如何工作的吗？

我能够在我的集群中设置fence_vmware_soap，并且我知道它用于防止数据损坏，以便两个节点不会同时写入共享存储（在我的情况下为lun）。在活动节点能够接管并写入共享磁盘之前，围栏将确保不健康的节点完全关闭。

我想知道会发生什么，以及集群中的一个节点如何在不健康的节点使用 fence_vmware_soap 代理杀死自己之前知道另一个节点不健康。

我将非常感谢以非常简单的方式解释它的答案，因为这是我第一次设置 nfs 集群（主动/被动）

cluster-computing vmware pacemaker corosync

2016-12-28T17:42:49.510

0 投票

0 回答

2065 浏览

cluster-computing - Pacemaker - 资源（虚拟）在故障转移时不执行我的脚本

我使用 Pacemaker+Corosync 来处理我的集群。DRBD+FileSystem+IPADDR 资源配置成功并正常运行。

我现在的目的是在发生故障转移时执行我自己的脚本（实际上是启动 oracle 服务）。

正如我在几个地方看到的那样，我将“虚拟”资源代理复制它并修改此文件以在启动函数中运行我的脚本。

我使用新的资源代理创建了我的资源，它已成功创建并且还具有“已启动”状态。

现在的问题是，当资源启动时，我的脚本没有运行（当然，在故障转移和切换时它也没有运行）。

我尝试运行资源命令“pcs resource restart”来强制运行脚本，但它仍然没有运行。

但是当我使用命令“resource debug-start resource-name”时，我的脚本正在运行。

这是我运行命令的配置和状态： 在我放置脚本的资源代理副本中 - /usr/lib/ocf/resource.d/heartbeat/StartOracle：

我的 cluster_cfg 文件是：

cluster-computing high-availability pacemaker drbd corosync

2017-01-17T12:44:49.000

0 投票

1 回答

377 浏览

high-availability - HA-Pacemaker-如何在我的自定义资源故障中插入自定义错误消息？

我在 Centos7 中使用 Pacemaker + Corosync，我创建了自己的资源代理并创建了一个自定义资源来运行我拥有的一些脚本。

在我的资源代理中，我有一个监控功能，每 x 分钟检查一次，当这个监控功能失败时，我返回“OCF_ERR_GENERIC”，因此所有资源都失败了。

当我执行命令“PCS status”时，我可以看到资源已停止/失败，并且还可以在“失败的操作”中看到有关“未知错误”失败的消息：

有没有办法插入我自己的错误消息而不是这个“未知错误”消息？？？

high-availability pacemaker corosync

2017-01-30T08:34:24.970

0 投票

1 回答

3177 浏览

high-availability - HA - Pacemaker - 有没有办法在 X 秒/分钟/小时后自动清除失败的操作？

我在 Centos7 中使用 Pacemaker + Corosync 当我的一个资源失败/停止时，我/我收到一条失败的操作消息：

有没有办法在 X 秒/分钟/小时后自动清理失败的操作？

high-availability pacemaker corosync

2017-01-30T08:54:45.357

0 投票

2 回答

11149 浏览

cluster-computing - HA 集群 - Pacemaker - 离线节点状态

我在 Centos7 中使用 Pacemaker + Corosync 使用以下命令创建集群：

当我检查集群的状态时，我看到节点之间的奇怪和不同的行为，看起来节点彼此不认识。

NODE1上的 pcs 状态：

NODE2上的 pcs 状态：

我也在两个节点上运行这个命令：

节点1：

节点2：

据我所知，两个节点都应该出现在上述状态。

你能帮忙并告诉我我在这里缺少什么吗？为什么节点似乎彼此不认识？

这也是我在两台服务器上的 /etc/hosts 文件：

我检查了授权（当我开始配置集群时肯定是授权的，现在我可以看到有问题，但我不明白它是什么以及它的根本原因是什么：

如果您需要其他信息，请告诉我什么，我会提供。

cluster-computing high-availability pacemaker corosync

2017-02-06T13:24:23.863

0 投票

1 回答

1025 浏览

mysql - 无法初始化 corosync 配置 API 错误 12

无法初始化在 docker 容器内运行的 corosync。该corosync-cfgtool -s命令产生以下内容：

该/etc/corosync/corosync.conf文件具有以下内容：

该/var/log/corosync.log文件显示以下内容：

mysql docker replication high-availability corosync

2017-05-02T20:16:38.830

0 投票

1 回答

3490 浏览

high-availability - centos7上使用pacemaker验证集群节点失败

我正在尝试在centos 7上使用起搏器配置两个节点（node1和node2 HA集群。我在两个节点上执行了以下步骤

yum install pcs

systemctl enable pcsd.service pacemaker.service corosync.service

systemctl start pcsd.service

passwd hacluster

之后在node1上执行以下命令

pcs cluster auth node1 node2

我得到以下错误

错误：无法与 node2 通信错误：无法与 node1 通信

我还验证了两个节点都在侦听端口 2224，并且还用于telnet验证两个节点是否能够在 2224 上相互连接。

需要帮忙。

high-availability pacemaker corosync

2017-05-17T06:49:21.387

0 投票

1 回答

1061 浏览

high-availability - 从一个节点到另一个节点的重传失败后，两个节点都将对方标记为死亡，并且在 crm_mon 中不显示对方的状态

所以在启动节点 1 时不显示节点 2，类似地节点 2 在 crm_mon 命令中不显示节点 1

在分析 corosync 日志后，我发现由于多次重传失败，两个节点都将彼此标记为已死，所以我尝试停止并启动 corosync 和起搏器，但它们仍然没有形成集群，并且在 crm_mon 中没有相互显示

节点2的日志：

对于 srv-vme-ccs-02

10 月 30 日 02:22:49 srv-vme-ccs-02 crmd[1973]：通知：crm_update_peer_state：plugin_handle_membership：节点 srv-vme-ccs-01[2544637100] - 状态现在是成员（原为（空）

迄今为止是会员

10 月 30 日 10:07:34 srv-vme-ccs-02 corosync[1613]：[TOTEM] 转发列表：117 Oct 30 10:07:35 srv-vme-ccs-02 corosync[1613]：[TOTEM] 转发列表: 118 Oct 30 10:07:35 srv-vme-ccs-02 corosync [1613]:
[TOTEM] 未能收到 10 月 30 日 10:07:49 srv-vme-ccs-02 arpwatch: bogon 192.168.0.120d4:be:d9:af:c6:23 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] 通知：pcmk_peer_update：第 232 环上的过渡成员资格事件：memb=1，new= 0, lost=1 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] info: pcmk_peer_update: memb: srv-vme-ccs-02 2561414316 Oct 30 10:07:59 srv- vme-ccs-02 corosync[1613]：[pcmk] 信息：pcmk_peer_update：丢失：srv-vme-ccs-01 2544637100 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]：[pcmk] 通知：pcmk_peer_update：环 232 上的稳定成员事件：memb=1，new=0，lost=0 Oct 30 10:07:59 srv-vme-ccs-02 corosync [1613]：[pcmk] 信息：pcmk_peer_update：MEMB：srv -vme-ccs-02 2561414316 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk ] info: ais_mark_unseen_peer_dead: 节点 srv-vme-ccs-01 在之前的转换中没有看到10 月 30 日 10:07:59 srv-vme-ccs-02 corosync [1613]：
[pcmk] 信息：update_member：节点 2544637100/srv-vme-ccs-01 现在：丢失 10 月 30 日 10:07:59 srv-vme-ccs-02 corosync[1613]：[pcmk] 信息：send_member_notification：发送会员更新232 到 2 个孩子 10 月 30 日 10:07:59 srv-vme-ccs-02 corosync[1613]: [TOTEM] 一个处理器加入或离开了成员，并形成了一个新的成员。10 月 30 日 10:07:59 srv-vme-ccs-02 corosync[1613]: [CPG ] 选择了 downlist: sender r(0) ip(172.20.172.152) ; 成员（旧：2 左：1）10 月 30 日 10:07:59 srv-vme-ccs-02 crmd [1973]：通知：plugin_handle_membership：成员资格 232：法定人数丢失 10 月 30 日 10:07:59 srv-vme-ccs- 02 corosync[1613]: [MAIN ] 服务同步完成，准备提供服务。10 月 30 日 10:07:59 srv-vme-ccs-02 cib [1968]：通知：plugin_handle_membership：成员资格 232：仲裁丢失 10 月 30 日 10:07:59 srv-vme-ccs-02 crmd[1973]：通知：crm_update_peer_state：plugin_handle_membership：节点 srv-vme-ccs-01[2544637100] - 状态现在丢失（曾是成员）10 月 30 日 10:07 ：59 srv-vme-ccs-02 cib[1968]：通知：crm_update_peer_state：plugin_handle_membership：节点 srv-vme-ccs-01[2544637100] - 状态现在丢失（曾是成员） 10 月 30 日 10:07:59 srv-vme -ccs-02 crmd[1973]：警告：reap_dead_nodes：我们的 DC 节点 (srv-vme-ccs-01) 离开了集群

现在 srv-vme-ccs-01 不再是会员

在另一个节点上，我发现了类似的重传失败日志

节点1的日志

对于 srv-vme-ccs-01

[2000] 10 月 30 日 09:48:32 [2000] srv-vme-ccs-01 pengine：信息：确定在线状态：节点 srv-vme-ccs-01 在线 [2000] 10 月 30 日 09:48:32 srv-vme-ccs-01 pengine：信息：确定在线状态：节点 srv-vme-ccs-02 在线

ct 30 09:48:59 [2001] srv-vme-ccs-01 crmd：信息：update_dc：未设置 DC。是 srv-vme-ccs-01 Oct 30 09:48:59 corosync [TOTEM] 重发列表：107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 10 月 30 日 09:48:59 corosync [TOTEM ]重传列表：107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 118

10 月 30 日 10:08:22 corosync [TOTEM] 处理器发生故障，形成新配置。10 月 30 日 10:08:25 corosync [pcmk] 通知：pcmk_peer_update：第 232 环上的过渡成员资格事件：memb=1，new=0，丢失=1 10 月 30 日 10:08:25 corosync [pcmk] 信息：pcmk_peer_update：memb： srv-vme-ccs-01 2544637100 10 月 30 日 10:08:25 corosync [pcmk] 信息：pcmk_peer_update：丢失：srv-vme-ccs-02 2561414316 10 月 30 日 10:08:25 corosync [pcmk] 通知：pcmk_peer_update：稳定成员环 232 上的事件：memb=1，new=0，lost=0 10 月 30 日 10:08:25 corosync [pcmk] 信息：pcmk_peer_update：MEMB：srv-vme-ccs-01 2544637100 10 月 30 日 10:08:25 corosync [ pcmk ] info: ais_mark_unseen_peer_dead: 节点 srv-vme-ccs-02 在之前的转换中没有看到10 月 30 日 10:08:25 corosync [pcmk] 信息：update_member：节点 2561414316/srv-vme-ccs-02 现在：丢失 10 月 30 日 10:08:25 corosync [pcmk] 信息：send_member_notification：将成员资格更新 232 发送到 2儿童 10 月 30 日 10:08:25 corosync [TOTEM] 一个处理器加入或离开了会员，并形成了一个新的会员。[1996 年 10 月 30 日 10:08:25] srv-vme-ccs-01 cib：通知：plugin_handle_membership：
成员资格 232：法定人数丢失 [1996 年 10 月 30 日 10:08:25] srv-vme-ccs-01
cib：通知：crm_update_peer_state：plugin_handle_membership：节点 srv-vme-ccs-02[2561414316] - 状态现在丢失（曾是成员）10 月 30 日 10:08:25 corosync [CPG] 已选择下列表：发件人 r(0) ip(172.20 .172.151)；成员（旧：2 左：1）10 月 30 日 10:08:25 [2001] srv-vme-ccs-01 crmd：通知：plugin_handle_membership：
成员资格 232：法定人数丢失 10 月 30 日 10:08:25 [2001] srv-vme -ccs-01
crmd：通知：crm_update_peer_state：plugin_handle_membership：节点 srv-vme-ccs-02[2561414316] - 状态现在丢失（曾是成员）10 月 30 日 10:08:25 [2001] srv-vme-ccs-01 crmd : info: peer_update_callback: srv-vme-ccs-02 is now lost (was member) Oct 30 10:08:25 corosync [MAIN ] 已完成服务同步，准备提供服务。10 月 30 日 10:08:25 [2001] srv-vme-ccs-01
crmd：警告：match_down_event：与 srv-vme-ccs-02 Oct 30 10:08:25 [1990] srv-vme-ccs-01 上的关机操作不匹配：
信息：crm_cs_flush：发送 0 条 CPG 消息（剩余 1 条， last=9): 再试一次 (6)

[2001 年 10 月 30 日 10:08:25] srv-vme-ccs-01 crmd：信息：join_make_offer：跳过 srv-vme-ccs-01：已知 10 月 30 日 10:08:25 [2001] srv-vme-ccs -01 crmd：info：update_dc：将 DC 设置为 srv-vme-ccs-01 (3.0.7) Oct 30 10:08:25 [1996] srv-vme-ccs-01
cib：info：cib_process_request：已完成 cib_modify 操作crm_config 部分：OK (rc=0, origin=local/crmd/185, version=0.116.3)

因此，同时在两个节点上重传消息严重（在服务器突然重新启动后发生）并且两个节点都将对方标记为丢失的成员并形成单独的集群将自己标记为 DC

high-availability failover pacemaker corosync

2017-12-06T08:08:23.750

0 投票

0 回答

465 浏览

postgresql - LXC Container 使用 root 获取从 Container 到 Container 的 SSH 连接

目前，我正在调查我的容器的问题。我有一个带有 2 个容器的主机，应该通过 Corosync 链接。这些需要与 SSH 连接以实现 Corosync 至关重要，但如果我添加普通用户，我可以毫无问题地获得公钥：

在这里我尝试用普通用户复制公钥

我想获得我的根的公钥，我已经用 ssh-keygen 生成了它并且我使用了密码，但是如果它尝试连接并且我在我想复制公钥时输入密码，它说我的被拒绝. 这只发生在 root 用户中：

这是我的根的问题

我真的需要帮助来解决这个问题，我不知道为什么会这样......也许他试图使用我的主机的根目录，因为我使用 lxc-attach 进入它。

postgresql containers lxc corosync

2017-12-16T17:07:21.200

问题标签 [corosync]

Reference