问题标签 [pacemaker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
926 浏览

centos7 - [pacemaker]不要重启nfs-server服务

我有带有 corosync 和起搏器的集群 nfs 服务器。

我成功安装了环境,然后我在测试时发现了一个问题。

在此处输入图像描述

该屏幕是在添加资源后捕获的。

nfs1 服务器运行良好,所有资源都由起搏器监视。

停止 nfs-service 后出现问题。

如果我输入命令“systemctl stop nfs”,nfs 服务将停止。然后集群自动移动到nfs2(这没关系)

在此处输入图像描述

然后我输入命令“pcs cluster standby bp-nfs2”,结果集群服务器被移动到 bp-nfs1,所有资源都在没有 nfsserver 的情况下被占用。

在此处输入图像描述

  1. 即使我再次启动 nfs-service,pacemaker 的 nfs 资源仍然停止。

  2. 我希望起搏器在起搏器启动时使 nfs-service 运行。

这是 nfs 资源创建推荐。

pcs 资源创建 nfsserver ocf:heartbeat:nfsserver \ nfs_shared_infodir="/mnt/sharedisk/" \ --group 资源组

有人知道这个问题,请教我。

如果你看不懂我的英语,我很抱歉。谢谢你。

0 投票
1 回答
329 浏览

debian - 获取同时在两个集群节点(corosync)中运行的星号服务器

我使用 corosync、pacemaker、heartbeat 创建了一个包含两个节点的集群。这是一个托管星号的 HA 集群。现在我配置了两个资源,一个星号服务器和一个虚拟 IP 地址。

集群配置

一切都很顺利,但我有一个不足之处。默认情况下,当 node1 启动并运行时,node2 中的星号服务关闭。我想让星号保持活动状态(node1,node2)并控制哪个星号正在使用虚拟 IP 地址呈现服务。我需要这样做,因为每一毫秒都是至关重要的,我不想在 node1 失败时浪费时间在 node2 中启动星号

0 投票
2 回答
162 浏览

apache - httpd 服务正在启动,尽管它在重新启动时无法启动

我正在使用 RHEL 7.4 操作系统。我已经systemctl disable httpd.service禁用了httpd的自动启动。它也被禁用。

[root@clustermrfc002 ~]# systemctl is-enabled httpd disabled.

但是在重新启动时,httpd 服务正在启动。

Jul 28 18:02:07 clustermrfc002.novalocal systemd[1]: Starting The Apache HTTP Server... Jul 28 18:02:08 clustermrfc002.novalocal httpd[8732]: [Sat Jul 28 18:02:08.357617 2018] [core:warn] [pid 8732] AH00117: Ignoring deprecated use Jul 28 18:02:08 clustermrfc002.novalocal systemd[1]: Started The Apache HTTP Server.

这导致 rhel 7 起搏器集群出现问题,看到以下错误。

0 投票
1 回答
341 浏览

nginx - 当 nginx 服务关闭时,Pacemake 不会进行故障转移

我已经为 nginx 设置了 HA-Cluster。因此,当 nginx 或节点发生故障时,它将故障转移到第二个节点。

pcs status 集群名称:push_noti_cluster 堆栈:corosync 当前 DC:push2(版本 1.1.18-11.el7_5.3-2b07d5c5a9) - 具有仲裁的分区 最后更新:2018 年 7 月 31 日星期二 11:29:16 最后更改:2018 年 7 月 31 日星期二:20:05 2018 由 root 通过 cibadmin 在 push1 上

配置了 2 个节点 配置了 3 个资源

在线:[push1push2]

完整资源列表:

virtual_ip (ocf::heartbeat:IPaddr2): 开始 push1 克隆集: Nginx-clone [Nginx] 开始: [ push1 push2 ]

守护进程状态: corosync: active/enabled 起搏器: active/enabled pcsd: active/enabled 你有新邮件在 /var/spool/mail/root [root@server1 ~]#

当我们停止pcs cluster stop在这些节点上使用集群服务或重新启动服务器时,故障转移工作正常。

我们想要实现的是在主机 node01 上的 nginx 停止运行并且资源 virtual_ip/webserver 都应该故障转移到第二个主机 node02 时执行资源故障转移。

是否可以进行服务级别故障转移?即当一个节点(node01)中的一个资源失败时,所有配置的资源(这里是virtual_ip/webserver)都应该故障转移到另一个节点(node02)。

0 投票
1 回答
646 浏览

squid - ipvsadm -L -n 突然显示没有活动连接

我在四个 Squid 代理的代理集群中有一个非常奇怪的问题:

其中一台机器是主人。母校正在运行 ldirectord,它正在检查所有四台机器的可用性,分发新的客户端连接。

突然之间,经过多年的操作,我遇到了这个问题:

1)服务于主机角色的机器没有被分配新的连接,旧的连接被提供,直到新的代理被分配给客户端。

2)其他机器仍在处理请求,从master那里接管客户端(到目前为止,一切都很好)

3) “ipvsadm -L -n”显示 ActiveConn 和 InActConn 值不断减小。

一旦我将主机角色迁移到另一台机器,“ipvsadm -L -n”会显示大量活动和非活动连接,直到大约一个小时后,新主机上也会发生同样的事情。

数据点:今天下午又发生了这种情况,现在“ipvsadm -L -n”显示:

现在已经有一段时间了,数字没有变化。

更多统计信息(ipvsadm -L --stats -n):

对于所有真实服务器和虚拟服务器,“Conns”的值现在是不变的。流量仍在流动(InPkts 增加)。

我检查了“ipvsadm -L -n -c”的输出,发现:

然后我等了一分钟,得到:

0 投票
1 回答
838 浏览

centos - 无法映射名称 UUID | 起搏器 | linux集群

我在 Centos 7.2 上有一个基于 Pacemaker(v1.1.18-11) 和 corosync(v2.4.3-2) 设置的 Linux 集群 这是一个两个节点设置,节点 = DBHA(主)和DBFAILOVER(从)

我有一个使用此资源代理的资源Postgresql9 : pgsql略有变化

我正在使用标准文档来设置 Postgres 复制:PgSQL_Replicated_Cluster

在为大师完成所有步骤之后,它仍然没有成为大师。/var/log/cluster/corosync.log中显示以下错误

Could not map name=dbha to a UUID

经过一番调试后,我发现以下命令返回上述错误: /usr/sbin/crm_attribute -l reboot -N "dbha" -n "Postgresql9-status" -v "STOP"

其中 Nodename 由以下方式计算:

NODENAME=$(ocf_local_nodename | tr '[A-Z]' '[a-z]')

其中 ocf_local_nodename() 来自 ocf-shellfuncs:

我尝试运行这两个命令crm_node -n ,并且uname -n在 DBHA 节点上都返回以下内容: DBHA

同样在 cibadmin 中:

<nodes> <node id="2" uname="DBHA">...

当我手动运行 crm_attribute 命令设置属性时,它再次返回相同的错误。

这是CIB:CIB

请帮忙

提前致谢

注意:我们在不同的操作系统(CENTOS (6.5,6.7,7.2,7.5) Redhat(7.5) 上有多个设置。我们以前从未遇到过这个问题。此外,节点名称中的大写字母(或小写字母)以前从未引起任何问题.

0 投票
1 回答
93 浏览

pacemaker - corosync/pacemaker 将 OCF_RUNNING_MASTER 视为错误

我创建了一个 ocf 资源代理,我想将它作为主/从集运行。起初,我的监控函数在一个正在运行的节点(无论它是主节点还是从节点)上返回了 OCF_SUCCESS,它确实有效,但起搏器不知道哪个是当前主节点(两个实例都报告为从节点)。

这就是为什么我将monitor函数更改为在master上返回OCF_RUNNING_MASTER,在slave上返回OCF_SUCCESS(因为我在drddb的代码中看到了它)。不幸的是,起搏器似乎将此解释为错误,杀死了主节点,将第二个节点推向主节点,等等。

有谁知道我如何让起搏器将 OCF_RUNNING_MASTER 解释为成功?

CRM配置:

crm状态输出:

0 投票
2 回答
292 浏览

cluster-computing - High availability Cluster Active/passive Setup using Pacemaker and drbd primary auto takes over after a failure

After follow the guide below, i manage to set up a active-passive cluster node. But i notice that when the main fails and come back on, it does not take back the primary role. What setting i should configure in the crm to ensure that when the primary recover after a fail it takes back as primary from the back up machine?

https://www.theurbanpenguin.com/drbd-pacemaker-ha-cluster-ubuntu-16-04/

0 投票
0 回答
207 浏览

mysql - ClientAbortException 当mysql查询需要时间执行时

我已经经历了几个关于此异常的 stackoverflow 问题和答案,但任何答案都与我的场景无关。

我的应用程序托管在多个 linux 云服务器中。

  • 2 个代理服务器(ubuntu、apache2 与起搏器负载平衡)
  • 2 个应用服务器(rhel7、apache2、tomcat8)
  • 2个数据库服务器(rhel7,mysql 5.5)

场景:在报表执行中,有多个条件查询检索超过 50,000 条记录,耗时超过 60 秒。当此报告运行时出现异常。有时它发生在查询执行之后,有时它发生在查询执行中间。

当记录数较低时不会发生此异常。

我也试图在我的本地开发环境中重现它,但我做不到;报告正在运行,没有任何异常。

(该应用程序是一个spring boot应用程序)

休眠属性,

异常日志:

0 投票
1 回答
966 浏览

postgresql - Pacemaker 不启动资源 jboss 和 pgsql

我在两台服务器上测试起搏器。

在两个节点上支持 CentOS 7 x64

设置 3 个资源。IPaddr2 可以正常工作。但是有 jboss 和 pgsql 的问题。

如果他们管理团队怎么办

它们起作用,但起搏器看不到它们。

    last-rc-change = 'Wed Dec 26 06:08:16 2018', queued = 0ms, exec = 20002ms * pgsql_start_0 on centos-test1 '未配置' (6): call = 15, status = complete, exitreason = ' ', last-rc-change = 'Wed Dec 26 06:07:56 2018', queued = 0ms, exec = 115ms * jboss_start_0 on centos-test2 'unknown error' (1): call = 14, status = Timed Out, exitreason = '',last-rc-change = '2018 年 12 月 26 日星期三 13:07:04',排队 = 0ms,exec = 20002ms

   在 ocf :: heartbeat: 环境变量有错误,我们必须在文件中明确指出:

corasync.log