“pacemaker”的相关标签问题

0 投票

1 回答

3177 浏览

high-availability - HA - Pacemaker - 有没有办法在 X 秒/分钟/小时后自动清除失败的操作？

我在 Centos7 中使用 Pacemaker + Corosync 当我的一个资源失败/停止时，我/我收到一条失败的操作消息：

有没有办法在 X 秒/分钟/小时后自动清理失败的操作？

2017-01-30T08:54:45.357

0 投票

2 回答

11149 浏览

cluster-computing - HA 集群 - Pacemaker - 离线节点状态

我在 Centos7 中使用 Pacemaker + Corosync 使用以下命令创建集群：

当我检查集群的状态时，我看到节点之间的奇怪和不同的行为，看起来节点彼此不认识。

NODE1上的 pcs 状态：

NODE2上的 pcs 状态：

我也在两个节点上运行这个命令：

节点1：

节点2：

据我所知，两个节点都应该出现在上述状态。

你能帮忙并告诉我我在这里缺少什么吗？为什么节点似乎彼此不认识？

这也是我在两台服务器上的 /etc/hosts 文件：

我检查了授权（当我开始配置集群时肯定是授权的，现在我可以看到有问题，但我不明白它是什么以及它的根本原因是什么：

如果您需要其他信息，请告诉我什么，我会提供。

cluster-computing high-availability pacemaker corosync

2017-02-06T13:24:23.863

0 投票

1 回答

2428 浏览

clone - 是否可以在不使用“repmgr 备用克隆”和 pg_rewind 的情况下降级主节点

我目前正在使用带有日志传送复制的 postgresql。我使用起搏器的主/从资源来处理 postgresql 故障转移。

我在问是否有办法将主机降级，将其设置为备用并保持同步，而不使用“repmgr 备用克隆”也不使用 pg_rewind。

事实上，我希望旧的 master 能够快速准备好回到 master 状态，而“repmgr standby clone”需要几分钟才能恢复，这太长了。

我看到可以使用 pg_rewind 来更快地同步，但这意味着要启用 wal_log_hints，我担心这个选项会降低 master 的性能。主人已经太忙了。

我尝试只在数据目录中写入 recovery.conf，主机已经很好地转向从机模式，但是它没有上游：

[root@bkm-01 httpd]# su - postgres -c "/usr/pgsql-9.5/bin/repmgr -f /var/lib/pgsql/repmgr/repmgr.conf cluster show" Role | Name | Upstream | Connection String ----------+--------|----------|-------------------------------------- * master | node-02 | | host=node-02 user=repmgr dbname=repmgr standby | node-01 | | host=node-01 user=repmgr dbname=repmgr

我希望它足够清楚，我实际上是数据库复制的新手。任何帮助，将不胜感激。

clone postgresql-9.5 standby pacemaker repmgr

2017-03-10T08:24:46.263

0 投票

1 回答

2165 浏览

cluster-computing - DRBD - 断开后自动恢复

我有配置了 DRBD 资源的高可用性集群。

我执行了一个测试，断开连接 DRBD 网络接口之间的一个网络适配器（例如关闭网络适配器）。现在集群显示状态，一切正常，但运行“ drbd -overview”时 DRBD 的状态显示在主服务器中：

在辅助服务器中：

现在我有几个问题： 1. 为什么集群不知道 DRBD 的问题？2. 为什么当我把掉线的网卡重新UP，重新连接DRBD之间的连接时，DRBD没有处理这个故障，连接正常就同步回DRBD？3. 我在这篇文章中看到了一篇关于“解决 DRBD 裂脑”的文章 - https://www.hastexo.com/resources/hints-and-kinks/solve-drbd-split-brain-4-steps/文章解释了如何克服断开连接的问题并重新同步 DRBD。但是我怎么知道存在这种问题呢？

我希望我能清楚地解释我的情况，并提供足够的信息来说明我拥有什么以及我需要什么......

cluster-computing high-availability pacemaker drbd

2017-03-30T15:06:44.233

0 投票

1 回答

294 浏览

apache-storm - storm1.1.0：未找到匹配字段：org.apache.storm.pacemaker.PacemakerClient 类的 waitUntilReady

使用storm 1.1.0 运行我的拓扑时，storm 的worker 上的pacemaker 出现错误。 ->java.lang.IllegalArgumentException: No matching field found: waitUntilReady for class org.apache.storm.pacemaker.PacemakerClient

在使用反射时，调用者似乎找不到方法waitUntilReady？但是我在 PacemakerClient 的源码中找到了这个方法：private void waitUntilReady() throws PacemakerConnectionException { } 当我使用相同拓扑代码和相同配置的storm 1.0.1时，worker到pacemaker的通信运行良好，没有这个异常。</p>

我用jdk1.8打包了topology，storm1.1.0也是用jdk1.8启动的！

我有这样的strom 1.1.0起搏器配置：</p>

完整的堆栈跟踪：</p>

apache-storm pacemaker

2017-04-17T04:44:11.347

0 投票

1 回答

1470 浏览

cluster-computing - Pacemaker - 高可用集群 - 如何接收通知

我有一个配置了 DRBD 资源的高可用性集群。

当资源失败时，有没有办法接收通知，例如电子邮件？

我正在使用 Web UI (GUI) 高可用性起搏器界面，但我没有找到这样做的方法。

cluster-computing high-availability pacemaker drbd

2017-05-03T06:25:17.107

0 投票

1 回答

3490 浏览

high-availability - centos7上使用pacemaker验证集群节点失败

我正在尝试在centos 7上使用起搏器配置两个节点（node1和node2 HA集群。我在两个节点上执行了以下步骤

yum install pcs

systemctl enable pcsd.service pacemaker.service corosync.service

systemctl start pcsd.service

passwd hacluster

之后在node1上执行以下命令

pcs cluster auth node1 node2

我得到以下错误

错误：无法与 node2 通信错误：无法与 node1 通信

我还验证了两个节点都在侦听端口 2224，并且还用于telnet验证两个节点是否能够在 2224 上相互连接。

需要帮忙。

high-availability pacemaker corosync

2017-05-17T06:49:21.387

0 投票

1 回答

597 浏览

pacemaker - centos 7 上的 Pacemaker : 为网络 blip 上的心跳类型 IPaddr2 类型的未管理资源释放 VIP

我有 2 个节点起搏器的设置，它有 2 个资源类型的 VIPocf::heartbeat:IPaddr2

VIP1：此 VIP 预计不会自动故障转移，因此此资源类型不受管理

VIP2：此 VIP 预计会自动故障转移，因此保持托管状态

问题：我们遇到了 3 分钟的网络问题，在这种情况下

VIP1：我们用于 VIP1 的 vip 已为主机释放，即使网络修复后也没有自动返回，资源被标记为已停止，因此我们用于 VIP1 的 ip 在 host1 或 host2 上都不存在。

VIP2：在这种情况下，ip 回到节点上，资源也重新启动。

即使资源不受管理，我们也不希望资源 VIP1 释放 IP。

pacemaker

2017-06-06T08:20:03.273

0 投票

1 回答

2769 浏览

cluster-computing - 如何处理具有两个节点数的集群的Split Brain？

我正在学习集群计算的一些基本概念，我有一些问题要问。

根据这篇文章：

如果一个集群分裂成两个（或更多）节点组，不能再相互通信（aka.partitions），quorum 用于防止资源在比预期更多的节点上启动，这可能会导致数据损坏。当所有已知节点中有一半以上在同一分区中在线时，或者对于数学倾向，只要以下等式为真，则集群具有仲裁：

total_nodes < 2 * active_nodes

例如，如果一个 5 节点集群分为 3 节点和 2 节点分区，则 3 节点分区将具有仲裁并且可以继续提供资源。如果一个 6 节点集群分成两个 3 节点分区，则两个分区都没有仲裁；在这种情况下起搏器的默认行为是停止所有资源，以防止数据损坏。

双节点集群是一种特殊情况。根据上面的定义，一个双节点集群只有在两个节点都运行时才会有仲裁。这将使创建双节点集群毫无意义

问题：

从上面，我有些困惑，为什么我们不能像“<strong>6节点集群”那样停止所有集群资源？两个节点集群有什么特别之处？

cluster-computing heartbeat pacemaker

2017-06-27T16:47:19.820

0 投票

1 回答

3056 浏览

high-availability - Pacemaker：添加自定义资源

我正在尝试在 CentOS7 上使用 Pacemaker 创建一个 HA 集群。所需资源之一是定制服务。我有一个符合 LSB 的初始化脚本，已放入 /etc/init.d，并在运行时将其列出：

当我尝试添加资源时

我得到的错误：

如果我使用 --force 运行它，我会得到以下信息：

AllResources 组还有另外两个资源：Ping 和 IPAddr2，它们以类似的方式添加，没有错误。

我错过了什么？有人遇到过这样的事情吗？

high-availability heartbeat pacemaker

2017-07-18T12:13:49.873

问题标签 [pacemaker]

Reference