问题标签 [cephadm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
86 浏览

ceph - Ceph Octopus 15.2.13 仪表板对象网关不工作

我按照下面链接上的官方说明进行操作,但我仍然在仪表板上遇到错误 «抱歉,我们找不到您要查找的内容»

https://docs.ceph.com/en/octopus/mgr/dashboard/#dashboard-enabling-object-gateway

0 投票
0 回答
241 浏览

ceph - 95% 的存储消耗后,Ceph 集群中的 1/3 OSD 下降

我是 Ceph 技术的新手,所以我可能不知道明显的东西。我开始使用 cephadm 部署 ceph 集群,我做到了。在我的第一次尝试中,我给了每个节点 3 GB RAM(一段时间后我发现它需要更多)。当节点的 ram 和交换之一填满 100% 时,我的集群挂起。现在我给每个节点 8GB 内存和 10GB SSD 交换,它是固定的:

Node01:4x CPU,8GB RAM,60GB SSD

Node02:4x CPU,6GB RAM,60GB SSD

Node04: 4x CPU , 8GB RAM , 60GB HDD

我通过创建 CephFS 开始使用它(它创建了 2 个池,一个用于数据,一个用于元数据(3x 副本规则))。我使用 ceph-common 在 Ubuntu 20.04 上安装了这个 FS:

它工作正常。我通过运行渲染地图并将切片保存在文件系统(我的 CephFS 池)中的服务来使用这个 fs。它工作大约 1 天半并生成 ~56.65GB 文件)。第二天,我看到了 1 个 OSD(带有 HDD 的 OSD)并且只有两个 OSD 在运行。我检查了 3 个节点的 RAM 和 CPU 状态。在 2 个节点中使用了 50% 的 RAM,在一个节点(节点 01)中使用了 85% 的 RAM,交换空间约为 4GB。我试图通过重新启动 OSD 来解决这个问题。当我重新启动它们时,关闭的 OSD 一直在崩溃。(之前运行的 OSD,重启后成功启动。我查看了 OSD 日志:

以上是down OSD中的日志。我开始阅读它并找到一个有用的日志以在 google 中搜索:

我发现了一个与版本 16.2.1 相关的错误(我使用 16.2.6): https ://tracker.ceph.com/issues/50656

我想从我的 OSD 中得到一个转储(我不完全理解他们在说什么):

我使用使用容器的 cephadm 部署集群,所以我认为我无法以这种方式访问​​套接字。这个命令引导我使用 ceph-bluestore-tool 查看我的物理磁盘的状态(查看容量、运行 fsck 或修复)但运行 ceph-bluestore-tool 需要指定我无法运行的 osd 的 --path主机(我的容器不断崩溃,所以我无法在容器内运行此命令)。我尝试使用 cephadm 在 osd 容器中运行命令,但无论如何都找不到这样做。

如果您需要此处的完整日志,请告诉我(由于字符限制,我无法发送)但它是相同的崩溃日志

我真的不明白发生了什么事。

我尝试使用 ceph-volume 将块设备挂载到主机上使用 ceph-bluestore-tool 在其上使用fsckrepair在其上使用。(它需要一个 --path 参数来指向 osd 文件)(我什至不知道以这种方式使用 ceph-volume 是否正确,或者它是为此而构建的 - 正如我告诉我的 Ceph 新手)

我尝试使用 cephadm 在崩溃的 OSD 中运行 ceph-bluestore-tool 命令,但我做不到。(我上面提到的socket错误)

我的 SSD OSD 已填满 94%,所以其他的 OSD 上仍有可用空间(我猜)。

我可以在互联网上找到的唯一线索不起作用。

我真的很想找到答案。如果你能帮助我,我会很高兴。甚至告诉我阅读文档或学习一些东西。

我将在此处发布有关我的集群的一些信息:

[Ceph 仪表板][1]

0 投票
0 回答
42 浏览

ceph - ceph 网络和分离的流量

我有一个 ceph 集群(带有 cephadm)并且我分离了网络、public_network 和 cluster_network

通过使用此命令:

~# ceph config set global cluster_network 10.4.4.0/24

~# ceph config set global public_network 192.168.0.0/24

我预计监控和 rgw 服务将在 192.168.0.0/24 上实现,OSD 服务在 10.4.4.0/24 上实现

但 !!!!!!

当我使用“netstate -nltpu”命令查看结果时。一些服务或端口在两个网络中都打开或在 0.0.0.0 上侦听:(

我发送结果“netstate -nltpu”的图像。有人可以向我解释一下吗?我犯错了吗?为什么会这样?

在此处输入图像描述 在此处 输入图像描述

0 投票
0 回答
36 浏览

ceph - “ceph-deploy create”命令会格式化我的磁盘吗?

我知道建议提供一个新的干净硬盘来创建一个 osd。但我只是在做一个调查,我真的不想为它提供硬盘。我只想将我的系统盘 /dev/vda2 用于 osd。我不知道“ceph-deploy create”是否会清理我的 /dev/vda2。

顺便说一句,如果这个命令真的会格式化我给的磁盘,我怎么能在不提供新磁盘的情况下创建一个 osd,只使用我的旧磁盘并保留旧数据?

我尝试为 osd 使用正常路径,我得到了这个:

0 投票
1 回答
45 浏览

snapshot - 了解 Ceph 中的快照

我们团队目前正在决定是否在 cephfs 目录上实现快照,从而试图了解快照对集群造成的影响和性能问题。

我们主要关心的是“当数据写入快照下的文件时,集群会受到怎样的影响?”。我们能够发现 Ceph 使用 Copy-on-write 机制来克隆快照,所以我的问题是,例如,如果我在快照下有一个 1GB 的文件,并且我将另外 10MB 的数据附加到文件中,那么由于新的写入,将复制多少数据?

我的理解是,由于 Ceph 将文件条带化为多个对象,因此只会复制包含最后一个 stripe_unit 的对象(假设它没有完全填充)并将新数据添加到其中,然后 Ceph 以某种方式设法包含新对象当我请求当前版本文件时,当我从快照请求文件时将包含旧对象。复制的数据 = O(10MB),我的意思是它按照数据写入的顺序,以及一些元数据更改。

或者由于 Ceph 现在使用 Bluestore 作为存储层,它是否有更好的优化(与上述情况相比),比如在编辑与最后一个 stripe_unit 对应的对象时,ceph 只会将新数据写入磁盘中的某个位置,然后编辑对象的元数据以包含新数据的位置,并维护基于快照的元数据版本,以便为我们提供以前时间点的文件内容。复制/写入的数据 = 10MB 和一些更多的元数据更改(与上述情况相比)。

或者是 Ceph 将复制整个文件并编辑文件的新副本的情况,即复制的数据为 1GB + 10MB。我假设情况并非如此,因为它显然不是大文件的最佳选择。

PS:任何关于测量快照对集群的影响的资源以及任何解释 Ceph 快照内部的资源都将非常感激。我在互联网上进行了广泛的搜索,但找不到任何相关数据。尝试阅读代码,但你们可能会猜到它是怎么回事。

0 投票
0 回答
47 浏览

ceph - ceph自动创建osd

我用 ceph 16.2.7 创建了一个集群,并添加了带有集群扩展的 OSD,然后我按照以下步骤从粉碎图中删除了一些 OSD。此外,选项 --all-available-devices 是不受管理的。

在此处输入图像描述 #ceph orch apply osd --all-available-devices --unmanaged=true

但是当我删除与已删除 OSD 相关的 LVM 时。被移除的 OSD 会自动恢复。我不希望这种情况发生。我想在磁盘上手动创建 OSD。谁能给我解释一下?

0 投票
0 回答
30 浏览

ceph - 如何修复ceph警告“存储已满”

我有一个集群 ceph,在监控选项卡仪表板中显示警告“存储已满”


但所有设备都是免费的

我应该怎么做才能解决这个警告?这是错误还是...?

0 投票
1 回答
41 浏览

storage - Ceph 集群关闭,原因 OSD 已满 - 未启动

Cephadm Pacific v16.2.7 我们的 Ceph 集群卡住了 pgs 降级和 osd 已关闭 原因:- OSD 已满

我们尝试过的事情

将 vale 更改为最大可能组合(不确定是否正确?) backfillfull <nearfull、nearfull < full 和 full < failsafe_full

ceph-objectstore-tool - 尝试删除一些 pgs 以恢复空间

尝试挂载 osd 并删除 pg 以恢复一些空间,但不确定如何在 bluestore 中执行此操作。

全球复苏事件 - 永远卡住