问题标签 [pacemaker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
283 浏览

cluster-computing - pcs 在同时启动两台机器时在主节点中启动它们之前不会停止伙伴节点中的故障转移资源

我最近开始研究集群,如果您想了解更多信息,请告诉我。

我有一个主动-主动 HA 集群。它旨在在故障转移情况下工作。

我有 Node1 和 Node2 作为主动-主动集群。起搏器和 corosync 用作集群管理器。两个节点都有 1 个资源组,每个资源组有 3 个资源。

当 Node1 出现故障时,Node2 会按预期接管其资源。当 Node1 重新上线时,pcs 首先在 node2 中停止 node1 资源,然后在 node1 中启动它们,这也是预期的并且工作正常。

问题:当两个节点同时启动时,我面临问题。

场景:两个节点同时下电再上电时。假设Node2首先启动,然后PCS看到node1仍然离线(仍在启动)并在node2中启动node1资源。然后它也在node2中启动自己的资源

所以在 node1 完全启动的同时,它会启动自己的资源。这里的问题是在它开始之前它没有停止 node2 中当前启动的 node1 资源(故障转移)。

因此,在结束时,node1 的资源在 node1 中启动,node2 的资源也在 node2 中启动。

当它们以时差(15 分钟)启动时,上述情况永远不会发生。当只有一个节点重新启动或关闭时,它也可以正常工作。

0 投票
1 回答
233 浏览

linux - 在 Linux HA 中,我们可以将节点关联性分配给 crm 资源吗

我正在使用 SLEHA12SP3 在 SUSE12 SP3 上使用 linux HA 集群
我使用 ocf 资源代理 "ocf::heartbeat:anything" 创建了一个自定义 CRM 资源(我称之为 ucaproc)。然而,我的问题是关于 crm 资源与 linux HA 集群中节点的关联性。似乎为集群提供虚拟 IP 的名为“failover-ip”的资源始终在节点 HA1 上启动,但我的自定义资源(称为 ucaproc)默认情况下始终在节点 HA2 上运行。查看显示集群资源的“crm status”命令的输出

如何强制我的自定义资源(ucaproc)在与“failover-ip”相同的节点上运行。基本上,我希望“failover-ip”和“ucaproc”资源都在相同的节点(活动节点 HA1)上运行,并且当节点发生故障时,我希望两者一起故障转移到其他节点(备用节点 HA2)。这里两个节点本身都是主动的,只是我根据运行的资源将它们视为主动和被动

感谢帮助

约格什·德维

0 投票
1 回答
261 浏览

python - 带有漂亮汤的 Python 自定义 nagios 脚本 - 获取“NRPE:无法读取输出”

我正在尝试创建一个自定义 python 2 nagios 脚本,以便能够监控单个起搏器资源。当它从文件中读取输入时,我设法让它工作,但是当从 cli 收集输入时,我无法让它工作。

所以像这样它可以工作:

但如果我取消注释这一行:

with os.popen ("/usr/sbin/crm_mon -r -X") as f:

让它从 cli 读取输入,它给了我 NRPE:unable to read output

有趣的是,当我在目标服务器中本地运行脚本时,它总是给我正确的输出。像这样:

我怀疑我读取命令输出的方式有问题,但无法弄清楚。有什么建议可以在哪里寻找更多详细信息?

0 投票
1 回答
537 浏览

sql-server - SQL 2017 Linux ag 资源未使用起搏器进行故障转移

我们按照MS 文档在 linux 上设置了一个 sql2017 集群。AG 中的复制工作正常,但我们无法进行故障转移。如果我在故障转移期间查看日志,起搏器正在尝试移动 AG,但它失败并继续在主服务器上运行。

在主服务器上,它报告资源未运行。

在二级我看到这个未知错误:

如果我跑步,pcs status我会得到以下信息。它显示的最新错误是如果我关闭主节点会发生什么。其他两个错误是由于已解决的 sql 权限引起的。

我还删除了任何限制(由于是多子网,我们没有使用虚拟 IP)

这是的输出pcs config

0 投票
1 回答
160 浏览

nginx - 如何在 Pacemaker/Corosync 中优先考虑节点?

我按照指南创建了一个带有浮动 IP 的 Nginx HA 集群。

(正在使用 Nginx、corosync、pacemaker)

我遵循的指南: https ://dzone.com/articles/how-to-configure-nginx-high-availability-cluster-u

我成功创建了一个 2 节点集群,它们都工作正常。当 Node1 下线时,使用 Node2 反之亦然。我的问题是,在我的情况下,Node1 应该是主要的,这意味着它应该始终在它在线时使用。

为了更好地描述它:

  • Node1 和 Node2 在线 -> 正在使用 Node1
  • Node1 离线 -> Node2 正在自动使用
  • (问题)当Node1重新上线时,Node2还在使用中
  • 如果我想再次使用 Node1,我需要手动停止 Node2。

我究竟需要配置什么才能使其在联机时自动切换到 Node1?

先感谢您!

0 投票
1 回答
292 浏览

linux - 保持 pcs 资源始终在所有主机上运行

有没有办法使用 pcs 命令配置资源,它们将始终保持在所有配置的节点上?我问这个问题是因为我可以在我的 2 节点设置中观察到以下行为:

例如,具有两个资源、浮动 IP 地址和 rsyslog 的两个节点设置:

rsyslog 资源仅在具有 VIP 的活动节点上运行。被动节点关闭 rsyslog 资源的进程,并等待“主动”节点中断以进行故障转移。一旦发生这种情况,它将在第二个节点上启动资源进程。但我想让进程始终同时在两个节点上运行,即使一个被声明为被动。

出于任何原因,我的起搏器/corosync 集群关闭了 node2 上的资源。我想让它们在两个节点上始终打开,只要没有失败的理由。

0 投票
1 回答
120 浏览

cluster-computing - LXD + SAN + Corosync/Pacemaker:共享容器

我有一个使用 SAN 运行的 Pacemaker/Corosync 集群。我尝试在这个环境中设置 LXD,但我做不到。我找不到将 LXD 容器环境放在 SAN 上的目录中的方法,该目录可供所有节点访问。我尝试的第二种方法是使用 LXD 集群功能。但我无法在 SAN 上的简单 gfs-filesystem 目录上配置远程存储。有谁知道将 LXD 放在共享环境中的方法?这与将其放在 nfs 文件系统上的方式类似。

0 投票
1 回答
228 浏览

rhel - SAN 上的 Postgres

我有两个带有共享存储的 postgres 节点(仅用于数据,不适用于配置),只需在一侧停止 postgres 并在另一侧启动它即可工作。Pacemaker (PAF) 处理节点之间的停止/启动。

问题:

在这种情况下推荐什么类型的 PostgreSQL 配置?

我应该为一些 PITR 和 SAN 卷的快照设置 WAL 归档,在两个节点上进行 WAL 归档等吗?

我只是在这里获得一些提示和指南,因为它似乎不是一个非常常见的用例。

谢谢!

0 投票
2 回答
356 浏览

amazon-web-services - Pacemaker 和 Corosync 的 AWS 区域问题

我目前正在尝试使用 3 个 EC2 实例在 AWS 上实施 HA 故障转移。假设这 3 台机器的名称是 HA1、HA2 和 HA3。HA1 有弹性 IP,另外两个有标准的公共 IP 来建立 SSH 连接。我已经在下面的列表中关注了这三个资源:

在我这样做之前完全没有问题,crm status因为我可以在 shell 上看到以下输出:

如您所见,主要问题是我使用以下命令创建的资源无法启动。

sudo crm configure primitive deneme123 ocf:heartbeat:awseip params elastic_ip="xx.xx.xx.xx" awscli="$(which aws)" allocation_id="eipalloc-xxxxxxxxxx" op start timeout="60s" interval="0s" on-fail="restart" op monitor timeout="60s" interval="10s" on-fail="restart" op stop timeout="60s" interval="0s" on-fail="block" meta migration-threshold="2" failure-timeout="60s" resource-stickiness="100"

最后,当我检查所有三个实例的起搏器状态时,我得到以下信息:

但我已经这样做aws configure并进入了该区域,也可以在 ~/.aws/config 上看到该区域。同时,我也添加AWS_DEFAULT_REGION=eu-xx-1/etc/systemd/system/multi-user.target.wants/pacemaker.service文件中。

问题是这里有什么问题?我看不出 AWS 区域有什么问题。是什么原因造成的?

0 投票
1 回答
48 浏览

openstack - OpenStack HA 配置问题缺少文件

根据https://www.golinuxcloud.com/configure-haproxy-in-openstack-high-availability/尝试实施 HA 的教程。我被困在需要向我没有的 /etc/httpd/conf.d/15-horizo​​n_vhost.conf 文件添加 VIP 别名的步骤。有谁知道我必须把这个放在哪里?我在 Stein 版本上工作。