问题标签 [pacemaker]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
high-availability - HA - Pacemaker - 有没有办法在 X 秒/分钟/小时后自动清除失败的操作?
我在 Centos7 中使用 Pacemaker + Corosync 当我的一个资源失败/停止时,我/我收到一条失败的操作消息:
有没有办法在 X 秒/分钟/小时后自动清理失败的操作?
cluster-computing - HA 集群 - Pacemaker - 离线节点状态
我在 Centos7 中使用 Pacemaker + Corosync 使用以下命令创建集群:
当我检查集群的状态时,我看到节点之间的奇怪和不同的行为,看起来节点彼此不认识。
NODE1上的 pcs 状态:
NODE2上的 pcs 状态:
我也在两个节点上运行这个命令:
节点1:
节点2:
据我所知,两个节点都应该出现在上述状态。
你能帮忙并告诉我我在这里缺少什么吗?为什么节点似乎彼此不认识?
这也是我在两台服务器上的 /etc/hosts 文件:
我检查了授权(当我开始配置集群时肯定是授权的,现在我可以看到有问题,但我不明白它是什么以及它的根本原因是什么:
如果您需要其他信息,请告诉我什么,我会提供。
clone - 是否可以在不使用“repmgr 备用克隆”和 pg_rewind 的情况下降级主节点
我目前正在使用带有日志传送复制的 postgresql。我使用起搏器的主/从资源来处理 postgresql 故障转移。
我在问是否有办法将主机降级,将其设置为备用并保持同步,而不使用“repmgr 备用克隆”也不使用 pg_rewind。
事实上,我希望旧的 master 能够快速准备好回到 master 状态,而“repmgr standby clone”需要几分钟才能恢复,这太长了。
我看到可以使用 pg_rewind 来更快地同步,但这意味着要启用 wal_log_hints,我担心这个选项会降低 master 的性能。主人已经太忙了。
我尝试只在数据目录中写入 recovery.conf,主机已经很好地转向从机模式,但是它没有上游:
[root@bkm-01 httpd]# su - postgres -c "/usr/pgsql-9.5/bin/repmgr -f /var/lib/pgsql/repmgr/repmgr.conf cluster show"
Role | Name | Upstream | Connection String
----------+--------|----------|--------------------------------------
* master | node-02 | | host=node-02 user=repmgr dbname=repmgr
standby | node-01 | | host=node-01 user=repmgr dbname=repmgr
我希望它足够清楚,我实际上是数据库复制的新手。任何帮助,将不胜感激。
cluster-computing - DRBD - 断开后自动恢复
我有配置了 DRBD 资源的高可用性集群。
我执行了一个测试,断开连接 DRBD 网络接口之间的一个网络适配器(例如关闭网络适配器)。现在集群显示状态,一切正常,但运行“ drbd -overview”时 DRBD 的状态显示在主服务器中:
在辅助服务器中:
现在我有几个问题: 1. 为什么集群不知道 DRBD 的问题?2. 为什么当我把掉线的网卡重新UP,重新连接DRBD之间的连接时,DRBD没有处理这个故障,连接正常就同步回DRBD?3. 我在这篇文章中看到了一篇关于“解决 DRBD 裂脑”的文章 - https://www.hastexo.com/resources/hints-and-kinks/solve-drbd-split-brain-4-steps/文章解释了如何克服断开连接的问题并重新同步 DRBD。 但是我怎么知道存在这种问题呢?
我希望我能清楚地解释我的情况,并提供足够的信息来说明我拥有什么以及我需要什么......
apache-storm - storm1.1.0:未找到匹配字段:org.apache.storm.pacemaker.PacemakerClient 类的 waitUntilReady
使用storm 1.1.0 运行我的拓扑时,storm 的worker 上的pacemaker 出现错误。 ->java.lang.IllegalArgumentException: No matching field found: waitUntilReady for class org.apache.storm.pacemaker.PacemakerClient
在使用反射时,调用者似乎找不到方法waitUntilReady?但是我在 PacemakerClient 的源码中找到了这个方法:private void waitUntilReady() throws PacemakerConnectionException { } 当我使用相同拓扑代码和相同配置的storm 1.0.1时,worker到pacemaker的通信运行良好,没有这个异常。</p>
我用jdk1.8打包了topology,storm1.1.0也是用jdk1.8启动的!
我有这样的strom 1.1.0起搏器配置:</p>
完整的堆栈跟踪:</p>
cluster-computing - Pacemaker - 高可用集群 - 如何接收通知
我有一个配置了 DRBD 资源的高可用性集群。
当资源失败时,有没有办法接收通知,例如电子邮件?
我正在使用 Web UI (GUI) 高可用性起搏器界面,但我没有找到这样做的方法。
high-availability - centos7上使用pacemaker验证集群节点失败
我正在尝试在centos 7上使用起搏器配置两个节点(node1和node2 HA集群。我在两个节点上执行了以下步骤
yum install pcs
systemctl enable pcsd.service pacemaker.service corosync.service
systemctl start pcsd.service
passwd hacluster
之后在node1上执行以下命令
pcs cluster auth node1 node2
我得到以下错误
错误:无法与 node2 通信 错误:无法与 node1 通信
我还验证了两个节点都在侦听端口 2224,并且还用于telnet
验证两个节点是否能够在 2224 上相互连接。
需要帮忙。
pacemaker - centos 7 上的 Pacemaker : 为网络 blip 上的心跳类型 IPaddr2 类型的未管理资源释放 VIP
我有 2 个节点起搏器的设置,它有 2 个资源类型的 VIPocf::heartbeat:IPaddr2
VIP1:此 VIP 预计不会自动故障转移,因此此资源类型不受管理
VIP2:此 VIP 预计会自动故障转移,因此保持托管状态
问题:我们遇到了 3 分钟的网络问题,在这种情况下
VIP1:我们用于 VIP1 的 vip 已为主机释放,即使网络修复后也没有自动返回,资源被标记为已停止,因此我们用于 VIP1 的 ip 在 host1 或 host2 上都不存在。
VIP2:在这种情况下,ip 回到节点上,资源也重新启动。
即使资源不受管理,我们也不希望资源 VIP1 释放 IP。
cluster-computing - 如何处理具有两个节点数的集群的Split Brain?
我正在学习集群计算的一些基本概念,我有一些问题要问。
根据这篇文章:
如果一个集群分裂成两个(或更多)节点组,不能再相互通信(aka.partitions),quorum 用于防止资源在比预期更多的节点上启动,这可能会导致数据损坏。当所有已知节点中有一半以上在同一分区中在线时,或者对于数学倾向,只要以下等式为真,则集群具有仲裁:
total_nodes < 2 * active_nodes
例如,如果一个 5 节点集群分为 3 节点和 2 节点分区,则 3 节点分区将具有仲裁并且可以继续提供资源。如果一个 6 节点集群分成两个 3 节点分区,则两个分区都没有仲裁;在这种情况下起搏器的默认行为是停止所有资源,以防止数据损坏。
双节点集群是一种特殊情况。根据上面的定义,一个双节点集群只有在两个节点都运行时才会有仲裁。这将使创建双节点集群毫无意义
问题:
从上面,我有些困惑,为什么我们不能像“<strong>6节点集群”那样停止所有集群资源?两个节点集群有什么特别之处?
high-availability - Pacemaker:添加自定义资源
我正在尝试在 CentOS7 上使用 Pacemaker 创建一个 HA 集群。所需资源之一是定制服务。我有一个符合 LSB 的初始化脚本,已放入 /etc/init.d,并在运行时将其列出:
当我尝试添加资源时
我得到的错误:
如果我使用 --force 运行它,我会得到以下信息:
AllResources 组还有另外两个资源:Ping 和 IPAddr2,它们以类似的方式添加,没有错误。
我错过了什么?有人遇到过这样的事情吗?