“cephfs”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1130 浏览

ceph - 客户端单节点ceph集群无响应

我试图建立一个小型单节点 ceph 集群，用于 ceph fs 的一些概念验证工作。集群运行 centos 7 操作系统：

集群看起来很健康：

所有 ceph 命令都可以在 OSD 节点（也是 mon、mgr、mds）上完美运行。但是，任何从另一台机器作为客户端（默认用户管理员）访问集群的尝试都将被完全忽略。例如：

客户端机器运行 OS 18.04.1-Ubuntu 并安装了与 osd 节点相同的 ceph 版本：

我已经验证没有客户被列入黑名单：

我已经验证了各种 ceph 代理正在侦听 OSD 节点上各自的端口：

我已经验证客户端确实使用端口 6789 上的 tcpdump 向 OSD 节点发送请求：

我已在客户端验证 /etc/ceph/ceph.client.admin.keyring 文件包含与 OSD 节点上相同的密钥。

当我在 OSD 节点上发出请求时，我检查了监控日志并查看了条目：

但是，没有什么反映我从客户端节点发出的请求。

所以请求正在发送到 OSD 节点，但我没有得到任何响应。我哪里出错了？

ceph cephfs

2020-07-08T14:20:17.833

0 投票

1 回答

46 浏览

memory - 关于ceph内核客户端与物理内存的关系？

CEPHFS集群部署在vmware虚拟机中，虚拟机内存配置为4G 用FIO测试

顺序如下：fio -name=task1 -filename=/mnt/testcephfs/fio-test-1 -rw=randwrite -ioengine=sync -size=1G -bs=4M -iodepth=1 -direct=0 -numjobs =1 请看图片 1 在此处输入图片描述

然后我把虚拟机内存调到8G 顺序如下：fio -name=task1 -filename=/mnt/testcephfs/fio-test-1 -rw=randwrite -ioengine=sync -size=1G -bs=4M - iodepth=1 -direct=0 -numjobs=1 请看图2 在此处输入图像描述

问题是：为什么我增加VIRTUAL机器内存，执行同样的fiO命令和bW增加？

2020-07-17T08:02:52.220

0 投票

1 回答

278 浏览

ceph - CephFS 池无法使用所有可用的原始空间 (MAX_AVAIL < AVAIL)

我有一个 Ceph 集群，旨在作为 CephFS 在硬盘驱动器机箱上运行，为多个服务器提供总共 9PiB 的原始空间。

我创建了一个 3+3 擦除编码池，它应该跨越我的硬盘驱动器的整个原始空间。

令人惊讶的是，它似乎只占用了 9PiB 中的 6PiB，所以当我向其中写入 ~2.5PiB 数据（以及 ~2.5PiB 更多校验和）时，它说我只有 500TiB 可用空间（对应于 1PiB 原始空间）。

这是输出ceph df：

请注意池 cephfs_erdata 部分中的MAX AVAIL列POOLS指出只剩下 500TiB，而AVAIL列中的列RAW STORAGE hdd CLASS有 3.7PiB 可用。

这意味着什么？我可以为该池分配更多空间吗？为什么 Ceph 本身不为其分配所有可用空间？

ceph cephfs

2020-07-22T16:21:53.723

0 投票

0 回答

726 浏览

ceph - ceph raw used 超过所有池中使用的总和（ceph df 详细信息）

首先对我糟糕的英语感到抱歉在我的 ceph 集群中，当我运行ceph df detail命令时，它显示如下结果

所以我对结果有疑问如您所见，我的池使用的存储总和小于 1 TB，但在RAW STORAGE部分使用的 HDD 硬盘为 10TB 并且每天都在增长。我认为这是不寻常的这个 CEPH 集群有问题。

而且仅供参考的输出ceph osd dump | grep replicated是

Ceph 版本ceph -v

Ceph OSD 版本 ceph tell osd.* version返回所有 OSD，例如

Ceph 状态ceph -s

ceph nautilus cephfs

2020-09-11T04:07:55.060

0 投票

1 回答

443 浏览

failover - Ceph MDS 会在“up:replay”中停留数小时。MDS 故障转移需要 10-15 小时

我们有 9 个节点的 Ceph 集群。Ceph 版本是 15.2.5。集群有 175 个 OSD (HDD) + 3 个 NVMe 用于“cephfs_data”池的缓存层。CephFS 池信息：

我们使用多个活动 MDS 实例：3 个“活动”和 3 个“备用”。每个 MDS 服务器有 128GB RAM，“mds 缓存内存限制”= 64GB。

故障转移到备用 MDS 实例需要 10-15 小时！客户端一直无法访问 CephFS。MDS 实例一直处于“up:replay”状态。看起来 MDS 恶魔在此步骤中检查了所有文件夹。我们有数百万个包含数百万个小文件的文件夹。完成文件夹/子文件夹扫描后，CephFS 将再次处于活动状态。我相信 MDS 故障转移期间 10 小时的停机时间是出乎意料的行为。有什么方法可以强制 MDS 将状态更改为活动并在后台运行所有必需的目录检查？如何定位根本原因？

PS：我们尝试了standby-replay，它有帮助，但不能消除根本原因。

failover ceph cephfs

2020-09-22T10:09:58.443

0 投票

1 回答

16772 浏览

kubernetes - 错误 - 无法附加或挂载卷：未挂载的卷=[数据]

我在 Kubernetes 中遇到了奇怪的问题。当我运行 install 命令时，pod 从未启动。PVC被绑定。它给出了低于顺序的错误

我在 helm 上安装了 rabbitmq。

这是我的 rabbitmq_values.yaml 文件

kubectl 描述 pod rabbitmq-0 ：

kubectl 获取光伏

kubectl 获取 pvc

kubectl 获取 sc

最后是我的“lsblk -f”运行命令一个节点：

kubernetes rabbitmq cephfs

2020-10-08T19:27:54.590

0 投票

0 回答

23 浏览

kubernetes - ceph 15.2.4 -- 身份验证更改 -- 无法与 kubernetes 重新连接

昨天，我的队友找到了一种方法来禁用 cephx 身份验证集群范围（2 个服务器集群），以绕过阻止我们加入第三个服务器的问题。不幸的是，他们不确定采取哪些步骤可以成功添加。我请求帮助让我的 ceph 再次运行。昨天我们在编辑 /etc/ceph/ceph.conf 后停止，在这里重新打开身份验证，然后将文件复制到 /var/lib/ceph/ / /config 并确保权限设置为 644。

这得到了一个以前没有的命令——我的ceph osd df再次正确显示了所有 24 个 OSD，但我无法运行ceph osd 状态或 ceph orch 状态。

kubernetes ceph cephfs

2020-10-11T05:43:14.250

0 投票

1 回答

345 浏览

ceph - CEPH Octupus：ceph 命令挂起。普罗米修斯也没有数据

我遇到了ceph的问题。我无法运行任何 ceph 命令。它真的挂了。我需要按 CTRL-C 来得到这个：

^C集群连接中断或超时

这是在 Ubuntu 16.04 上。另外，我使用 Graphana 和 Prometheus 从集群中获取信息，但现在没有数据可以绘制。有什么线索吗？

cephadm 版本信息：cephadm：使用最近的 ceph 图像 ceph/ceph:v15 ceph 版本 15.2.4 (7447c15c6ff58d7fce91843b705a268a1917325c) 章鱼（稳定）

先感谢您。

ceph cephfs

2020-10-19T21:22:05.583

0 投票

0 回答

184 浏览

ceph - ceph - 对网络变化的弹性 - 在 IP 地址分配更改后恢复磁盘

ceph 似乎对网络移动和变化不太适应。可能是因为 IP 地址被存储为组成 ceph 集群的系统的标识。

问题：最近我们的集群在几乎没有任何警告的情况下被物理移动，ceph 被关闭并且系统在移动之前被关闭。新位置分配了不同的 IP 地址，当集群重新启动并分配了新的 IP 地址时，ceph 无法正确启动。

可能的解决方案：避免永久存储 IP 地址和主机名。相反，当 ceph 集群启动时，应该在运行时建立主机名和物理设备之间的关联。

如果 IP 地址和主机名必须保存在持久存储中，则应该有一个工具可以在不同的网络配置之间轻松迁移。

有关失败案例 的更多信息 ceph-mon.*.asok 套接字不存在，因为监控服务无法启动。阻止监视器启动的错误似乎是监视器无法连接到集群 - 因为如前所述，我们的集群被快速关闭并且 IP 地址没有以受控方式更改。监视器日志充满了以以下绑定错误开始的尝试：处理器 -- 绑定在 3 次尝试后无法绑定：(99) 无法分配请求的地址

尝试迁移到新网络配置的事情 起点是使用新的 IP 地址配置更新 ceph.conf 并重新运行ceph-deploy admin（ceph 版本是 Nautilus）以将新的管理员配置推送到网络。但是，这不会更新 ceph 粉碎地图。研究了各种旧讨论，例如https://tracker.ceph.com/issues/3550和用户文档https://docs.ceph.com/en/latest/rados/operations/add-or-rm-mons/ #changed-a-monitor-s-ip-address，但没有找到真正可行的解决方案。

所以我问这个问题，看看是否有其他人遇到过同样的问题，如果有，真正的专家认为只在运行时关联主机名/IP 地址和物理设备，并在 ceph 启动期间实现关联的发现阶段制作。或者当然也许还有另一个更好的解决方案？

ceph cephfs

2020-11-03T08:38:48.387

0 投票

1 回答

156 浏览

git - CephFs 和 CephRBD 对 git clone 的速度很慢

我已经在 kubernetes 集群中部署了 ceph 集群，并尝试使用 CephFs 和 CephRbd typ 的卷挂载来 git 克隆 Pod 内的存储库。

尽管将所有文件写入卷需要大量时间。

git 存储库大约有 4GB 大小。

想知道这是否是正常行为？

眼镜：

4 个 kubernetes 节点 - 1 个主节点 + 3 个从节点 3 个 OSD 3 个 mon 1 个元数据服务器 1 个 mnager 守护进程

ceph 用作存储的 3 个节点是 100Gb 大小的第二个 ssd 驱动器。

git kubernetes ceph cephfs

2020-11-04T16:25:58.903

问题标签 [cephfs]

Reference