问题标签 [pacemaker]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
centos7 - [pacemaker]不要重启nfs-server服务
我有带有 corosync 和起搏器的集群 nfs 服务器。
我成功安装了环境,然后我在测试时发现了一个问题。
该屏幕是在添加资源后捕获的。
nfs1 服务器运行良好,所有资源都由起搏器监视。
停止 nfs-service 后出现问题。
如果我输入命令“systemctl stop nfs”,nfs 服务将停止。然后集群自动移动到nfs2(这没关系)
然后我输入命令“pcs cluster standby bp-nfs2”,结果集群服务器被移动到 bp-nfs1,所有资源都在没有 nfsserver 的情况下被占用。
即使我再次启动 nfs-service,pacemaker 的 nfs 资源仍然停止。
我希望起搏器在起搏器启动时使 nfs-service 运行。
这是 nfs 资源创建推荐。
pcs 资源创建 nfsserver ocf:heartbeat:nfsserver \ nfs_shared_infodir="/mnt/sharedisk/" \ --group 资源组
有人知道这个问题,请教我。
如果你看不懂我的英语,我很抱歉。谢谢你。
debian - 获取同时在两个集群节点(corosync)中运行的星号服务器
我使用 corosync、pacemaker、heartbeat 创建了一个包含两个节点的集群。这是一个托管星号的 HA 集群。现在我配置了两个资源,一个星号服务器和一个虚拟 IP 地址。
一切都很顺利,但我有一个不足之处。默认情况下,当 node1 启动并运行时,node2 中的星号服务关闭。我想让星号保持活动状态(node1,node2)并控制哪个星号正在使用虚拟 IP 地址呈现服务。我需要这样做,因为每一毫秒都是至关重要的,我不想在 node1 失败时浪费时间在 node2 中启动星号
apache - httpd 服务正在启动,尽管它在重新启动时无法启动
我正在使用 RHEL 7.4 操作系统。我已经systemctl disable httpd.service
禁用了httpd的自动启动。它也被禁用。
[root@clustermrfc002 ~]# systemctl is-enabled httpd
disabled
.
但是在重新启动时,httpd 服务正在启动。
Jul 28 18:02:07 clustermrfc002.novalocal systemd[1]: Starting The Apache HTTP Server...
Jul 28 18:02:08 clustermrfc002.novalocal httpd[8732]: [Sat Jul 28 18:02:08.357617 2018] [core:warn] [pid 8732] AH00117: Ignoring deprecated use
Jul 28 18:02:08 clustermrfc002.novalocal systemd[1]: Started The Apache HTTP Server.
这导致 rhel 7 起搏器集群出现问题,看到以下错误。
nginx - 当 nginx 服务关闭时,Pacemake 不会进行故障转移
我已经为 nginx 设置了 HA-Cluster。因此,当 nginx 或节点发生故障时,它将故障转移到第二个节点。
pcs status 集群名称:push_noti_cluster 堆栈:corosync 当前 DC:push2(版本 1.1.18-11.el7_5.3-2b07d5c5a9) - 具有仲裁的分区 最后更新:2018 年 7 月 31 日星期二 11:29:16 最后更改:2018 年 7 月 31 日星期二:20:05 2018 由 root 通过 cibadmin 在 push1 上
配置了 2 个节点 配置了 3 个资源
在线:[push1push2]
完整资源列表:
virtual_ip (ocf::heartbeat:IPaddr2): 开始 push1 克隆集: Nginx-clone [Nginx] 开始: [ push1 push2 ]
守护进程状态: corosync: active/enabled 起搏器: active/enabled pcsd: active/enabled 你有新邮件在 /var/spool/mail/root [root@server1 ~]#
当我们停止pcs cluster stop
在这些节点上使用集群服务或重新启动服务器时,故障转移工作正常。
我们想要实现的是在主机 node01 上的 nginx 停止运行并且资源 virtual_ip/webserver 都应该故障转移到第二个主机 node02 时执行资源故障转移。
是否可以进行服务级别故障转移?即当一个节点(node01)中的一个资源失败时,所有配置的资源(这里是virtual_ip/webserver)都应该故障转移到另一个节点(node02)。
squid - ipvsadm -L -n 突然显示没有活动连接
我在四个 Squid 代理的代理集群中有一个非常奇怪的问题:
其中一台机器是主人。母校正在运行 ldirectord,它正在检查所有四台机器的可用性,分发新的客户端连接。
突然之间,经过多年的操作,我遇到了这个问题:
1)服务于主机角色的机器没有被分配新的连接,旧的连接被提供,直到新的代理被分配给客户端。
2)其他机器仍在处理请求,从master那里接管客户端(到目前为止,一切都很好)
3) “ipvsadm -L -n”显示 ActiveConn 和 InActConn 值不断减小。
一旦我将主机角色迁移到另一台机器,“ipvsadm -L -n”会显示大量活动和非活动连接,直到大约一个小时后,新主机上也会发生同样的事情。
数据点:今天下午又发生了这种情况,现在“ipvsadm -L -n”显示:
现在已经有一段时间了,数字没有变化。
更多统计信息(ipvsadm -L --stats -n):
对于所有真实服务器和虚拟服务器,“Conns”的值现在是不变的。流量仍在流动(InPkts 增加)。
我检查了“ipvsadm -L -n -c”的输出,发现:
然后我等了一分钟,得到:
centos - 无法映射名称 UUID | 起搏器 | linux集群
我在 Centos 7.2 上有一个基于 Pacemaker(v1.1.18-11) 和 corosync(v2.4.3-2) 设置的 Linux 集群 这是一个两个节点设置,节点 = DBHA(主)和DBFAILOVER(从)
我有一个使用此资源代理的资源Postgresql9 : pgsql略有变化
我正在使用标准文档来设置 Postgres 复制:PgSQL_Replicated_Cluster
在为大师完成所有步骤之后,它仍然没有成为大师。/var/log/cluster/corosync.log中显示以下错误
Could not map name=dbha to a UUID
经过一番调试后,我发现以下命令返回上述错误:
/usr/sbin/crm_attribute -l reboot -N "dbha" -n "Postgresql9-status" -v "STOP"
其中 Nodename 由以下方式计算:
NODENAME=$(ocf_local_nodename | tr '[A-Z]' '[a-z]')
其中 ocf_local_nodename() 来自 ocf-shellfuncs:
我尝试运行这两个命令crm_node -n
,并且uname -n
在 DBHA 节点上都返回以下内容:
DBHA
同样在 cibadmin 中:
<nodes>
<node id="2" uname="DBHA">...
当我手动运行 crm_attribute 命令设置属性时,它再次返回相同的错误。
这是CIB:CIB
请帮忙
提前致谢
注意:我们在不同的操作系统(CENTOS (6.5,6.7,7.2,7.5) Redhat(7.5) 上有多个设置。我们以前从未遇到过这个问题。此外,节点名称中的大写字母(或小写字母)以前从未引起任何问题.
pacemaker - corosync/pacemaker 将 OCF_RUNNING_MASTER 视为错误
我创建了一个 ocf 资源代理,我想将它作为主/从集运行。起初,我的监控函数在一个正在运行的节点(无论它是主节点还是从节点)上返回了 OCF_SUCCESS,它确实有效,但起搏器不知道哪个是当前主节点(两个实例都报告为从节点)。
这就是为什么我将monitor函数更改为在master上返回OCF_RUNNING_MASTER,在slave上返回OCF_SUCCESS(因为我在drddb的代码中看到了它)。不幸的是,起搏器似乎将此解释为错误,杀死了主节点,将第二个节点推向主节点,等等。
有谁知道我如何让起搏器将 OCF_RUNNING_MASTER 解释为成功?
CRM配置:
crm状态输出:
cluster-computing - High availability Cluster Active/passive Setup using Pacemaker and drbd primary auto takes over after a failure
After follow the guide below, i manage to set up a active-passive cluster node. But i notice that when the main fails and come back on, it does not take back the primary role. What setting i should configure in the crm to ensure that when the primary recover after a fail it takes back as primary from the back up machine?
https://www.theurbanpenguin.com/drbd-pacemaker-ha-cluster-ubuntu-16-04/
mysql - ClientAbortException 当mysql查询需要时间执行时
我已经经历了几个关于此异常的 stackoverflow 问题和答案,但任何答案都与我的场景无关。
我的应用程序托管在多个 linux 云服务器中。
- 2 个代理服务器(ubuntu、apache2 与起搏器负载平衡)
- 2 个应用服务器(rhel7、apache2、tomcat8)
- 2个数据库服务器(rhel7,mysql 5.5)
场景:在报表执行中,有多个条件查询检索超过 50,000 条记录,耗时超过 60 秒。当此报告运行时出现异常。有时它发生在查询执行之后,有时它发生在查询执行中间。
当记录数较低时不会发生此异常。
我也试图在我的本地开发环境中重现它,但我做不到;报告正在运行,没有任何异常。
(该应用程序是一个spring boot应用程序)
休眠属性,
异常日志:
postgresql - Pacemaker 不启动资源 jboss 和 pgsql
我在两台服务器上测试起搏器。
在两个节点上支持 CentOS 7 x64
设置 3 个资源。IPaddr2 可以正常工作。但是有 jboss 和 pgsql 的问题。
如果他们管理团队怎么办
它们起作用,但起搏器看不到它们。
last-rc-change = 'Wed Dec 26 06:08:16 2018', queued = 0ms, exec = 20002ms * pgsql_start_0 on centos-test1 '未配置' (6): call = 15, status = complete, exitreason = ' ', last-rc-change = 'Wed Dec 26 06:07:56 2018', queued = 0ms, exec = 115ms * jboss_start_0 on centos-test2 'unknown error' (1): call = 14, status = Timed Out, exitreason = '',last-rc-change = '2018 年 12 月 26 日星期三 13:07:04',排队 = 0ms,exec = 20002ms
在 ocf :: heartbeat: 环境变量有错误,我们必须在文件中明确指出:
corasync.log