问题标签 [pacemaker]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
oracle - Oracle + ASM + LVM + 起搏器
我需要为 Oracle 数据库创建一个带有 RedHat7(起搏器)的集群。DBA 说需要使用 Oracle ASM 来管理磁盘,但集群需要使用 LVM。我可以使用 LVM 和 ASM 吗?
resources - 起搏器资源依赖启动
我的问题是关于心脏起搏器。例如pacemaker集群有两个资源,其中一个正在启动,比如需要3分钟,那么在这3分钟内,如果另一个资源监视器失败,它不会立即调用stop/start方法重新启动而是等待第一个资源开始完成。第一个资源完全启动后,第二个资源开始重新启动,有谁知道为什么吗?非常感谢!我的集群版本:corosync 2.3.4 起搏器 1.1.13
linux - 向起搏器提交第一份工作
我遵循了本指南: https ://clusterlabs.org/doc/en-US/Pacemaker/1.1-pcs/html/Clusters_from_Scratch/
我坚持使用主动/被动 DRBD 文件系统共享。我不得不重新启动集群,现在我收到以下错误:
有任何想法吗?
还有人有任何推荐的提交工作的指南吗?
perl - vSphere CLI 中的警告:使用未初始化的值 $hostname
我正在使用vSphere CLI 6.5.0从 Perl 脚本重置 VM。在上下文中,这是 Pacemaker 的(专有)STONITH 插件。
在 STONITH 之后立即报告属于 vSphere CLIjournalctl -u pacemaker
的警告。vmcontrol.pl
警告由 Pacemaker 报告fence_legacy
,属于 Pacemaker。
错误发生在对UTIL::trace
以下上下文的调用中:
我想知道这是一个功能还是一个错误。是不是因为 VM 正在重新启动Vim::get_view
而无法报告主机名(因此$hostname
无法初始化)时与 VMware 通信?
这听起来不太可能(例如,因为调用ResetVM
发生在分配给之后$hostname
),但我怀疑这样的事情正在发生,在这种情况下可以忽略警告。我还怀疑该问题仅与 vSphere CLI 有关(即不是由其在 Pacemaker 堆栈中的使用引起的)。
cluster-computing - 带有临时主机名更改的 DRBD
我已经为将数据写入本地磁盘的应用程序设置了一个测试 2 节点 HA 集群。为此设置了 DRBD,以将数据同步到第二个节点。我的应用程序依赖于主机名来启动/停止和执行任何任务。为了让它具有高可用性,我设置了集群 IP 并临时将我的节点从其实际名称重命名为虚拟 IP 的名称。
所有这一切都适用于手动将 DRBD 资源提升为主资源并将其挂载到随时设置虚拟 IP 的任何节点上。
一旦我尝试在起搏器中添加 DRBD 资源,然后使用临时名称启动我的应用程序(使用 hostname 命令更改主机名,例如:- nodeA:~# hostname test-ip),HA 集群就会因 DRBD 而失败并从服务器较早提升为主服务器。因此,我无法让我的应用程序完全由集群管理。
无论如何,DRBD 是否可以在 2 节点集群中使用虚拟 IP 的主机名(重命名主机)?
high-availability - 从一个节点到另一个节点的重传失败后,两个节点都将对方标记为死亡,并且在 crm_mon 中不显示对方的状态
所以在启动节点 1 时不显示节点 2,类似地节点 2 在 crm_mon 命令中不显示节点 1
在分析 corosync 日志后,我发现由于多次重传失败,两个节点都将彼此标记为已死,所以我尝试停止并启动 corosync 和起搏器,但它们仍然没有形成集群,并且在 crm_mon 中没有相互显示
节点2的日志:
对于 srv-vme-ccs-02
10 月 30 日 02:22:49 srv-vme-ccs-02 crmd[1973]:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-01[2544637100] - 状态现在是成员(原为(空)
迄今为止是会员
10 月 30 日 10:07:34 srv-vme-ccs-02 corosync[1613]:[TOTEM] 转发列表:117 Oct 30 10:07:35 srv-vme-ccs-02 corosync[1613]:[TOTEM] 转发列表: 118 Oct 30 10:07:35 srv-vme-ccs-02 corosync [1613]:
[TOTEM] 未能收到 10 月 30 日 10:07:49 srv-vme-ccs-02 arpwatch: bogon 192.168.0.120d4:be:d9:af:c6:23 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] 通知:pcmk_peer_update:第 232 环上的过渡成员资格事件:memb=1,new= 0, lost=1 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] info: pcmk_peer_update: memb: srv-vme-ccs-02 2561414316 Oct 30 10:07:59 srv- vme-ccs-02 corosync[1613]:[pcmk] 信息:pcmk_peer_update:丢失:srv-vme-ccs-01 2544637100 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]:[pcmk] 通知:pcmk_peer_update:环 232 上的稳定成员事件:memb=1,new=0,lost=0 Oct 30 10:07:59 srv-vme-ccs-02 corosync [1613]:[pcmk] 信息:pcmk_peer_update:MEMB:srv -vme-ccs-02 2561414316 Oct 30 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk ] info: ais_mark_unseen_peer_dead: 节点 srv-vme-ccs-01 在之前的转换中没有看到10 月 30 日 10:07:59 srv-vme-ccs-02 corosync [1613]:
[pcmk] 信息:update_member:节点 2544637100/srv-vme-ccs-01 现在:丢失 10 月 30 日 10:07:59 srv-vme-ccs-02 corosync[1613]:[pcmk] 信息:send_member_notification:发送会员更新232 到 2 个孩子 10 月 30 日 10:07:59 srv-vme-ccs-02 corosync[1613]: [TOTEM] 一个处理器加入或离开了成员,并形成了一个新的成员。10 月 30 日 10:07:59 srv-vme-ccs-02 corosync[1613]: [CPG ] 选择了 downlist: sender r(0) ip(172.20.172.152) ; 成员(旧:2 左:1)10 月 30 日 10:07:59 srv-vme-ccs-02 crmd [1973]:通知:plugin_handle_membership:成员资格 232:法定人数丢失 10 月 30 日 10:07:59 srv-vme-ccs- 02 corosync[1613]: [MAIN ] 服务同步完成,准备提供服务。10 月 30 日 10:07:59 srv-vme-ccs-02 cib [1968]:通知:plugin_handle_membership:成员资格 232:仲裁丢失 10 月 30 日 10:07:59 srv-vme-ccs-02 crmd[1973]:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-01[2544637100] - 状态现在丢失(曾是成员)10 月 30 日 10:07 :59 srv-vme-ccs-02 cib[1968]:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-01[2544637100] - 状态现在丢失(曾是成员) 10 月 30 日 10:07:59 srv-vme -ccs-02 crmd[1973]:警告:reap_dead_nodes:我们的 DC 节点 (srv-vme-ccs-01) 离开了集群现在 srv-vme-ccs-01 不再是会员
在另一个节点上,我发现了类似的重传失败日志
节点1的日志
对于 srv-vme-ccs-01
[2000] 10 月 30 日 09:48:32 [2000] srv-vme-ccs-01 pengine:信息:确定在线状态:节点 srv-vme-ccs-01 在线 [2000] 10 月 30 日 09:48:32 srv-vme-ccs-01 pengine:信息:确定在线状态:节点 srv-vme-ccs-02 在线
ct 30 09:48:59 [2001] srv-vme-ccs-01 crmd:信息:update_dc:未设置 DC。是 srv-vme-ccs-01 Oct 30 09:48:59 corosync [TOTEM] 重发列表:107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 10 月 30 日 09:48:59 corosync [TOTEM ]重传列表:107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 118
10 月 30 日 10:08:22 corosync [TOTEM] 处理器发生故障,形成新配置。10 月 30 日 10:08:25 corosync [pcmk] 通知:pcmk_peer_update:第 232 环上的过渡成员资格事件:memb=1,new=0,丢失=1 10 月 30 日 10:08:25 corosync [pcmk] 信息:pcmk_peer_update:memb: srv-vme-ccs-01 2544637100 10 月 30 日 10:08:25 corosync [pcmk] 信息:pcmk_peer_update:丢失:srv-vme-ccs-02 2561414316 10 月 30 日 10:08:25 corosync [pcmk] 通知:pcmk_peer_update:稳定成员环 232 上的事件:memb=1,new=0,lost=0 10 月 30 日 10:08:25 corosync [pcmk] 信息:pcmk_peer_update:MEMB:srv-vme-ccs-01 2544637100 10 月 30 日 10:08:25 corosync [ pcmk ] info: ais_mark_unseen_peer_dead: 节点 srv-vme-ccs-02 在之前的转换中没有看到10 月 30 日 10:08:25 corosync [pcmk] 信息:update_member:节点 2561414316/srv-vme-ccs-02 现在:丢失 10 月 30 日 10:08:25 corosync [pcmk] 信息:send_member_notification:将成员资格更新 232 发送到 2儿童 10 月 30 日 10:08:25 corosync [TOTEM] 一个处理器加入或离开了会员,并形成了一个新的会员。[1996 年 10 月 30 日 10:08:25] srv-vme-ccs-01 cib:通知:plugin_handle_membership:
成员资格 232:法定人数丢失 [1996 年 10 月 30 日 10:08:25] srv-vme-ccs-01
cib:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-02[2561414316] - 状态现在丢失(曾是成员)10 月 30 日 10:08:25 corosync [CPG] 已选择下列表:发件人 r(0) ip(172.20 .172.151);成员(旧:2 左:1)10 月 30 日 10:08:25 [2001] srv-vme-ccs-01 crmd:通知:plugin_handle_membership:
成员资格 232:法定人数丢失 10 月 30 日 10:08:25 [2001] srv-vme -ccs-01
crmd:通知:crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-02[2561414316] - 状态现在丢失(曾是成员)10 月 30 日 10:08:25 [2001] srv-vme-ccs-01 crmd : info: peer_update_callback: srv-vme-ccs-02 is now lost (was member) Oct 30 10:08:25 corosync [MAIN ] 已完成服务同步,准备提供服务。10 月 30 日 10:08:25 [2001] srv-vme-ccs-01
crmd:警告:match_down_event:与 srv-vme-ccs-02 Oct 30 10:08:25 [1990] srv-vme-ccs-01 上的关机操作不匹配:
信息:crm_cs_flush:发送 0 条 CPG 消息(剩余 1 条, last=9): 再试一次 (6)[2001 年 10 月 30 日 10:08:25] srv-vme-ccs-01 crmd:信息:join_make_offer:跳过 srv-vme-ccs-01:已知 10 月 30 日 10:08:25 [2001] srv-vme-ccs -01 crmd:info:update_dc:将 DC 设置为 srv-vme-ccs-01 (3.0.7) Oct 30 10:08:25 [1996] srv-vme-ccs-01
cib:info:cib_process_request:已完成 cib_modify 操作crm_config 部分:OK (rc=0, origin=local/crmd/185, version=0.116.3)
因此,同时在两个节点上重传消息严重(在服务器突然重新启动后发生)并且两个节点都将对方标记为丢失的成员并形成单独的集群将自己标记为 DC
cluster-computing - 起搏器待处理任务列表
有谁知道如何使用起搏器/openais 获取 linux HA 集群中的待处理任务列表?
假设我有一个 2 节点集群,两个节点都处于在线状态。我将 nodeB 添加到待机状态,然后停止其上的起搏器/openais 服务。
然后,我不小心使用 crm 执行了:“crm node online nodeB”。一旦在 nodeB 上启动起搏器/openais 服务,该节点就不会保持待机状态,而是将其状态更改为在线。
我想知道我们是否可以查看此类待处理的操作/任务,有没有办法撤消/删除它们?
crm - Corosync/Pacemaker pcs 等效于 crm 的命令
我知道crm
实用程序命令一直是人们在使用 corosync 和起搏器的高可用性方面管理集群的首选方法。现在,它已被弃用,我们被告知使用pcs
实用程序命令,这些命令假设可以执行我们过去使用的所有类型的事情crm
。
现在我困扰的是找到pcs
等效的命令;
crm node attribute <node_name> set <resource_name> <some_parameters>
我在 CentOS 7.2 版本和使用 Percona 主从集群。
cluster-computing - 使用起搏器在 Redhat 7.4 集群上配置 LVM 资源
我正在使用起搏器配置 Red Hat 集群,并且我想添加一个 LVM 资源。我已经安装了以下软件包,
操作系统:红帽 7.4
安装的软件包: lvm2-cluster、pacemaker、corosync、pcs、fence-agents-all
但我的 LVM 资源处于失败状态并出现以下错误:
我正在使用iscsi
为我的两个节点共享磁盘。在我将共享磁盘呈现给节点后,我pvcreate, vgcreate, lvcreate
为新呈现的磁盘创建了一个。
之后,我更改了新的 vg 并使用以下命令创建了集群属性。
为了配置 LVM 资源,我们是否需要运行 clvmd 服务?然后对于起搏器,我可以找到 /usr/sbin/clvmd 服务但无法启动它。
有谁知道为什么我的 LVM 资源有这样的错误并且失败了?
heartbeat - postgres-xl 数据节点的起搏器主/从配置
我使用 postgres-xl 创建了一个包含 1 个 gtm(在 t1 上)、1 个协调器(在 t1 上)和 2 个数据节点(主/从)(分别在 t1 和 t2 上)的集群。我正在尝试使用以下 github 链接配置起搏器心跳应用程序,
https://github.com/bitnine-oss/postgres-xl-ha
但配置后我得到以下状态,
谁能帮忙??