2

我希望你们都健康。:-)

目前我有一个反复出现的问题。我们的数据库集群由三个节点组成,目前几乎每天都出现故障。重复的原因是三个节点之一挂起,因此以某种方式挂起整个集群。但是......我们有集群来保护我们免受失败。:-(

该问题表现为每次连接尝试都超时。我通过 ssh 连接到每个节点并执行命令“mariadb”或“mysql”。到目前为止,该命令总是在 3 个节点中的 2 个上工作,一个节点(挂起的节点)没有响应。如果我现在通过“rebo​​ot -f”重新启动挂起的节点,几秒钟后集群就会恢复健康。

没有“-f”的重启不起作用,因为无法停止 MariaDB 服务。即使在几个小时后,冻结的节点也不会从集群中删除。

命令“mysqlcheck -A -e”对所有表显示“OK”。所以我希望没有人被腐败。

我对此感到绝望,因为数据库一直很稳定。:-(

有人有想法吗?

我们的配置:

  • 每台服务器都有 8 个 CPU 内核、32 GB RAM 并使用 SSD 运行。
  • 带有最新更新的 Ubuntu 20.04 LTS
  • MariaDB 10.5.8
  • “wsrep_protocol_version” 10

我们有两个包含 2-3 百万条数据记录的表。其他表(大约还有 10 个)有 1 到 60.000 条数据记录。该数据库每秒访问大约 100 次。

4

0 回答 0