问题标签 [pacemaker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3177 浏览

high-availability - HA - Pacemaker - 有没有办法在 X 秒/分钟/小时后自动清除失败的操作?

我在 Centos7 中使用 Pacemaker + Corosync 当我的一个资源失败/停止时,我/我收到一条失败的操作消息:

有没有办法在 X 秒/分钟/小时后自动清理失败的操作?

0 投票
2 回答
11149 浏览

cluster-computing - HA 集群 - Pacemaker - 离线节点状态

我在 Centos7 中使用 Pacemaker + Corosync 使用以下命令创建集群:

当我检查集群的状态时,我看到节点之间的奇怪和不同的行为,看起来节点彼此不认识。

NODE1上的 pcs 状态:

NODE2上的 pcs 状态:

我也在两个节点上运行这个命令:

节点1:

节点2:

据我所知,两个节点都应该出现在上述状态。

你能帮忙并告诉我我在这里缺少什么吗?为什么节点似乎彼此不认识?

这也是我在两台服务器上的 /etc/hosts 文件:

我检查了授权(当我开始配置集群时肯定是授权的,现在我可以看到有问题,但我不明白它是什么以及它的根本原因是什么:

如果您需要其他信息,请告诉我什么,我会提供。

0 投票
1 回答
2428 浏览

clone - 是否可以在不使用“repmgr 备用克隆”和 pg_rewind 的情况下降级主节点

我目前正在使用带有日志传送复制的 postgresql。我使用起搏器的主/从资源来处理 postgresql 故障转移。

我在问是否有办法将主机降级,将其设置为备用并保持同步,而不使用“repmgr 备用克隆”也不使用 pg_rewind。

事实上,我希望旧的 master 能够快速准备好回到 master 状态,而“repmgr standby clone”需要几分钟才能恢复,这太长了。

我看到可以使用 pg_rewind 来更快地同步,但这意味着要启用 wal_log_hints,我担心这个选项会降低 master 的性能。主人已经太忙了。

我尝试只在数据目录中写入 recovery.conf,主机已经很好地转向从机模式,但是它没有上游:

[root@bkm-01 httpd]# su - postgres -c "/usr/pgsql-9.5/bin/repmgr -f /var/lib/pgsql/repmgr/repmgr.conf cluster show" Role | Name | Upstream | Connection String ----------+--------|----------|-------------------------------------- * master | node-02 | | host=node-02 user=repmgr dbname=repmgr standby | node-01 | | host=node-01 user=repmgr dbname=repmgr

我希望它足够清楚,我实际上是数据库复制的新手。任何帮助,将不胜感激。

0 投票
1 回答
2165 浏览

cluster-computing - DRBD - 断开后自动恢复

我有配置了 DRBD 资源的高可用性集群。

我执行了一个测试,断开连接 DRBD 网络接口之间的一个网络适配器(例如关闭网络适配器)。现在集群显示状态,一切正常,但运行“ drbd -overview”时 DRBD 的状态显示在主服务器中:

在辅助服务器中:

现在我有几个问题: 1. 为什么集群不知道 DRBD 的问题?2. 为什么当我把掉线的网卡重新UP,重新连接DRBD之间的连接时,DRBD没有处理这个故障,连接正常就同步回DRBD?3. 我在这篇文章中看到了一篇关于“解决 DRBD 裂脑”的文章 - https://www.hastexo.com/resources/hints-and-kinks/solve-drbd-split-brain-4-steps/文章解释了如何克服断开连接的问题并重新同步 DRBD。 但是我怎么知道存在这种问题呢?

我希望我能清楚地解释我的情况,并提供足够的信息来说明我拥有什么以及我需要什么......

0 投票
1 回答
294 浏览

apache-storm - storm1.1.0:未找到匹配字段:org.apache.storm.pacemaker.PacemakerClient 类的 waitUntilReady

使用storm 1.1.0 运行我的拓扑时,storm 的worker 上的pacemaker 出现错误。 ->java.lang.IllegalArgumentException: No matching field found: waitUntilReady for class org.apache.storm.pacemaker.PacemakerClient

在使用反射时,调用者似乎找不到方法waitUntilReady?但是我在 PacemakerClient 的源码中找到了这个方法:private void waitUntilReady() throws PacemakerConnectionException { } 当我使用相同拓扑代码和相同配置的storm 1.0.1时,worker到pacemaker的通信运行良好,没有这个异常。</p>

我用jdk1.8打包了topology,storm1.1.0也是用jdk1.8启动的!

我有这样的strom 1.1.0起搏器配置:</p>

完整的堆栈跟踪:</p>

0 投票
1 回答
1470 浏览

cluster-computing - Pacemaker - 高可用集群 - 如何接收通知

我有一个配置了 DRBD 资源的高可用性集群。

当资源失败时,有没有办法接收通知,例如电子邮件?

我正在使用 Web UI (GUI) 高可用性起搏器界面,但我没有找到这样做的方法。

0 投票
1 回答
3490 浏览

high-availability - centos7上使用pacemaker验证集群节点失败

我正在尝试在centos 7上使用起搏器配置两个节点(node1和node2 HA集群。我在两个节点上执行了以下步骤

yum install pcs

systemctl enable pcsd.service pacemaker.service corosync.service

systemctl start pcsd.service

passwd hacluster

之后在node1上执行以下命令

pcs cluster auth node1 node2

我得到以下错误

错误:无法与 node2 通信 错误:无法与 node1 通信

我还验证了两个节点都在侦听端口 2224,并且还用于telnet验证两个节点是否能够在 2224 上相互连接。

需要帮忙。

0 投票
1 回答
597 浏览

pacemaker - centos 7 上的 Pacemaker : 为网络 blip 上的心跳类型 IPaddr2 类型的未管理资源释放 VIP

我有 2 个节点起搏器的设置,它有 2 个资源类型的 VIPocf::heartbeat:IPaddr2

VIP1:此 VIP 预计不会自动故障转移,因此此资源类型不受管理

VIP2:此 VIP 预计会自动故障转移,因此保持托管状态

问题:我们遇到了 3 分钟的网络问题,在这种情况下

VIP1:我们用于 VIP1 的 vip 已为主机释放,即使网络修复后也没有自动返回,资源被标记为已停止,因此我们用于 VIP1 的 ip 在 host1 或 host2 上都不存在。

VIP2:在这种情况下,ip 回到节点上,资源也重新启动。

即使资源不受管理,我们也不希望资源 VIP1 释放 IP。

0 投票
1 回答
2769 浏览

cluster-computing - 如何处理具有两个节点数的集群的Split Brain?

我正在学习集群计算的一些基本概念,我有一些问题要问。

根据这篇文章:

如果一个集群分裂成两个(或更多)节点组,不能再相互通信(aka.partitions),quorum 用于防止资源在比预期更多的节点上启动,这可能会导致数据损坏。当所有已知节点中有一半以上在同一分区中在线时,或者对于数学倾向,只要以下等式为真,则集群具有仲裁:

total_nodes < 2 * active_nodes

例如,如果一个 5 节点集群分为 3 节点和 2 节点分区,则 3 节点分区将具有仲裁并且可以继续提供资源。如果一个 6 节点集群分成两个 3 节点分区,则两个分区都没有仲裁;在这种情况下起搏器的默认行为是停止所有资源,以防止数据损坏。

双节点集群是一种特殊情况。根据上面的定义,一个双节点集群只有在两个节点都运行时才会有仲裁。这将使创建双节点集群毫无意义

问题:

从上面,我有些困惑,为什么我们不能像“<strong>6节点集群”那样停止所有集群资源?两个节点集群有什么特别之处?

0 投票
1 回答
3056 浏览

high-availability - Pacemaker:添加自定义资源

我正在尝试在 CentOS7 上使用 Pacemaker 创建一个 HA 集群。所需资源之一是定制服务。我有一个符合 LSB 的初始化脚本,已放入 /etc/init.d,并在运行时将其列出:

当我尝试添加资源时

我得到的错误:

如果我使用 --force 运行它,我会得到以下信息:

AllResources 组还有另外两个资源:Ping 和 IPAddr2,它们以类似的方式添加,没有错误。

我错过了什么?有人遇到过这样的事情吗?