问题标签 [cephfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1130 浏览

ceph - 客户端单节点ceph集群无响应

我试图建立一个小型单节点 ceph 集群,用于 ceph fs 的一些概念验证工作。集群运行 centos 7 操作系统:

集群看起来很健康:

所有 ceph 命令都可以在 OSD 节点(也是 mon、mgr、mds)上完美运行。但是,任何从另一台机器作为客户端(默认用户管理员)访问集群的尝试都将被完全忽略。例如:

客户端机器运行 OS 18.04.1-Ubuntu 并安装了与 osd 节点相同的 ceph 版本:

我已经验证没有客户被列入黑名单:

我已经验证了各种 ceph 代理正在侦听 OSD 节点上各自的端口:

我已经验证客户端确实使用端口 6789 上的 tcpdump 向 OSD 节点发送请求:

我已在客户端验证 /etc/ceph/ceph.client.admin.keyring 文件包含与 OSD 节点上相同的密钥。

当我在 OSD 节点上发出请求时,我检查了监控日志并查看了条目:

但是,没有什么反映我从客户端节点发出的请求。

所以请求正在发送到 OSD 节点,但我没有得到任何响应。我哪里出错了?

0 投票
1 回答
46 浏览

memory - 关于ceph内核客户端与物理内存的关系?

CEPHFS集群部署在vmware虚拟机中,虚拟机内存配置为4G 用FIO测试

顺序如下:fio -name=task1 -filename=/mnt/testcephfs/fio-test-1 -rw=randwrite -ioengine=sync -size=1G -bs=4M -iodepth=1 -direct=0 -numjobs =1 请看图片 1 在此处输入图片描述

然后我把虚拟机内存调到8G 顺序如下:fio -name=task1 -filename=/mnt/testcephfs/fio-test-1 -rw=randwrite -ioengine=sync -size=1G -bs=4M - iodepth=1 -direct=0 -numjobs=1 请看图2 在此处输入图像描述

问题是:为什么我增加VIRTUAL机器内存,执行同样的fiO命令和bW增加?

0 投票
1 回答
278 浏览

ceph - CephFS 池无法使用所有可用的原始空间 (MAX_AVAIL < AVAIL)

我有一个 Ceph 集群,旨在作为 CephFS 在硬盘驱动器机箱上运行,为多个服务器提供总共 9PiB 的原始空间。

我创建了一个 3+3 擦除编码池,它应该跨越我的硬盘驱动器的整个原始空间。

令人惊讶的是,它似乎只占用了 9PiB 中的 6PiB,所以当我向其中写入 ~2.5PiB 数据(以及 ~2.5PiB 更多校验和)时,它说我只有 500TiB 可用空间(对应于 1PiB 原始空间)。

这是输出ceph df

请注意池 cephfs_erdata 部分中的MAX AVAILPOOLS指出只剩下 500TiB,而AVAIL列中的列RAW STORAGE hdd CLASS有 3.7PiB 可用。

这意味着什么?我可以为该池分配更多空间吗?为什么 Ceph 本身不为其分配所有可用空间?

0 投票
0 回答
726 浏览

ceph - ceph raw used 超过所有池中使用的总和(ceph df 详细信息)

首先对我糟糕的英语感到抱歉 在我的 ceph 集群中,当我运行ceph df detail命令时,它显示如下结果

所以我对结果有疑问如您所见,我的池使用的存储总和小于 1 TB,但在RAW STORAGE部分使用的 HDD 硬盘为 10TB 并且每天都在增长。我认为这是不寻常的这个 CEPH 集群有问题。

而且仅供参考的输出ceph osd dump | grep replicated

Ceph 版本ceph -v

Ceph OSD 版本 ceph tell osd.* version返回所有 OSD,例如

Ceph 状态ceph -s

0 投票
1 回答
443 浏览

failover - Ceph MDS 会在“up:replay”中停留数小时。MDS 故障转移需要 10-15 小时

我们有 9 个节点的 Ceph 集群。Ceph 版本是 15.2.5。集群有 175 个 OSD (HDD) + 3 个 NVMe 用于“cephfs_data”池的缓存层。CephFS 池信息:

我们使用多个活动 MDS 实例:3 个“活动”和 3 个“备用”。每个 MDS 服务器有 128GB RAM,“mds 缓存内存限制”= 64GB。

故障转移到备用 MDS 实例需要 10-15 小时!客户端一直无法访问 CephFS。MDS 实例一直处于“up:replay”状态。看起来 MDS 恶魔在此步骤中检查了所有文件夹。我们有数百万个包含数百万个小文件的文件夹。完成文件夹/子文件夹扫描后,CephFS 将再次处于活动状态。我相信 MDS 故障转移期间 10 小时的停机时间是出乎意料的行为。有什么方法可以强制 MDS 将状态更改为活动并在后台运行所有必需的目录检查?如何定位根本原因?

PS:我们尝试了standby-replay,它有帮助,但不能消除根本原因。

0 投票
1 回答
16772 浏览

kubernetes - 错误 - 无法附加或挂载卷:未挂载的卷=[数据]

我在 Kubernetes 中遇到了奇怪的问题。当我运行 install 命令时,pod 从未启动。PVC被绑定。它给出了低于顺序的错误

我在 helm 上安装了 rabbitmq。

这是我的 rabbitmq_values.yaml 文件

kubectl 描述 pod rabbitmq-0 : kubectl 描述 pod rabbitmq-0

kubectl 获取光伏 kubectl 获取光伏

kubectl 获取 pvc kubectl 获取 pvc

kubectl 获取 sc kubectl 获取 sc

最后是我的“lsblk -f”运行命令一个节点: lsblk -f

0 投票
0 回答
23 浏览

kubernetes - ceph 15.2.4 -- 身份验证更改 -- 无法与 kubernetes 重新连接

昨天,我的队友找到了一种方法来禁用 cephx 身份验证集群范围(2 个服务器集群),以绕过阻止我们加入第三个服务器的问题。不幸的是,他们不确定采取哪些步骤可以成功添加。我请求帮助让我的 ceph 再次运行。昨天我们在编辑 /etc/ceph/ceph.conf 后停止,在这里重新打开身份验证,然后将文件复制到 /var/lib/ceph/ / /config 并确保权限设置为 644。

这得到了一个以前没有的命令——我的ceph osd df再次正确显示了所有 24 个 OSD,但我无法运行ceph osd 状态或 ceph orch 状态。

0 投票
1 回答
345 浏览

ceph - CEPH Octupus:ceph 命令挂起。普罗米修斯也没有数据

我遇到了ceph的问题。我无法运行任何 ceph 命令。它真的挂了。我需要按 CTRL-C 来得到这个:

^C集群连接中断或超时

这是在 Ubuntu 16.04 上。另外,我使用 Graphana 和 Prometheus 从集群中获取信息,但现在没有数据可以绘制。有什么线索吗?

cephadm 版本信息:cephadm:使用最近的 ceph 图像 ceph/ceph:v15 ceph 版本 15.2.4 (7447c15c6ff58d7fce91843b705a268a1917325c) 章鱼(稳定)

先感谢您。

0 投票
0 回答
184 浏览

ceph - ceph - 对网络变化的弹性 - 在 IP 地址分配更改后恢复磁盘

ceph 似乎对网络移动和变化不太适应。可能是因为 IP 地址被存储为组成 ceph 集群的系统的标识。

问题:最近我们的集群在几乎没有任何警告的情况下被物理移动,ceph 被关闭并且系统在移动之前被关闭。新位置分配了不同的 IP 地址,当集群重新启动并分配了新的 IP 地址时,ceph 无法正确启动。

可能的解决方案避免永久存储 IP 地址和主机名。相反,当 ceph 集群启动时,应该在运行时建立主机名和物理设备之间的关联。

如果 IP 地址和主机名必须保存在持久存储中,则应该有一个工具可以在不同的网络配置之间轻松迁移

有关失败案例 的更多信息 ceph-mon.*.asok 套接字不存在,因为监控服务无法启动。阻止监视器启动的错误似乎是监视器无法连接到集群 - 因为如前所述,我们的集群被快速关闭并且 IP 地址没有以受控方式更改。监视器日志充满了以以下绑定错误开始的尝试:处理器 -- 绑定在 3 次尝试后无法绑定:(99) 无法分配请求的地址

尝试迁移到新网络配置的事情 ​​起点是使用新的 IP 地址配置更新 ceph.conf 并重新运行ceph-deploy admin(ceph 版本是 Nautilus)以将新的管理员配置推送到网络。但是,这不会更新 ceph 粉碎地图。研究了各种旧讨论,例如https://tracker.ceph.com/issues/3550和用户文档https://docs.ceph.com/en/latest/rados/operations/add-or-rm-mons/ #changed-a-monitor-s-ip-address,但没有找到真正可行的解决方案。

所以我问这个问题,看看是否有其他人遇到过同样的问题,如果有,真正的专家认为只在运行时关联主机名/IP 地址和物理设备,并在 ceph 启动期间实现关联的发现阶段制作。或者当然也许还有另一个更好的解决方案?

0 投票
1 回答
156 浏览

git - CephFs 和 CephRBD 对 git clone 的速度很慢

我已经在 kubernetes 集群中部署了 ceph 集群,并尝试使用 CephFs 和 CephRbd typ 的卷挂载来 git 克隆 Pod 内的存储库。

尽管将所有文件写入卷需要大量时间。

git 存储库大约有 4GB 大小。

想知道这是否是正常行为?

眼镜:

4 个 kubernetes 节点 - 1 个主节点 + 3 个从节点 3 个 OSD 3 个 mon 1 个元数据服务器 1 个 mnager 守护进程

ceph 用作存储的 3 个节点是 100Gb 大小的第二个 ssd 驱动器。