问题标签 [cephfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ceph - 客户端单节点ceph集群无响应
我试图建立一个小型单节点 ceph 集群,用于 ceph fs 的一些概念验证工作。集群运行 centos 7 操作系统:
集群看起来很健康:
所有 ceph 命令都可以在 OSD 节点(也是 mon、mgr、mds)上完美运行。但是,任何从另一台机器作为客户端(默认用户管理员)访问集群的尝试都将被完全忽略。例如:
客户端机器运行 OS 18.04.1-Ubuntu 并安装了与 osd 节点相同的 ceph 版本:
我已经验证没有客户被列入黑名单:
我已经验证了各种 ceph 代理正在侦听 OSD 节点上各自的端口:
我已经验证客户端确实使用端口 6789 上的 tcpdump 向 OSD 节点发送请求:
我已在客户端验证 /etc/ceph/ceph.client.admin.keyring 文件包含与 OSD 节点上相同的密钥。
当我在 OSD 节点上发出请求时,我检查了监控日志并查看了条目:
但是,没有什么反映我从客户端节点发出的请求。
所以请求正在发送到 OSD 节点,但我没有得到任何响应。我哪里出错了?
memory - 关于ceph内核客户端与物理内存的关系?
CEPHFS集群部署在vmware虚拟机中,虚拟机内存配置为4G 用FIO测试
顺序如下:fio -name=task1 -filename=/mnt/testcephfs/fio-test-1 -rw=randwrite -ioengine=sync -size=1G -bs=4M -iodepth=1 -direct=0 -numjobs =1 请看图片 1 在此处输入图片描述
然后我把虚拟机内存调到8G 顺序如下:fio -name=task1 -filename=/mnt/testcephfs/fio-test-1 -rw=randwrite -ioengine=sync -size=1G -bs=4M - iodepth=1 -direct=0 -numjobs=1 请看图2 在此处输入图像描述
问题是:为什么我增加VIRTUAL机器内存,执行同样的fiO命令和bW增加?
ceph - CephFS 池无法使用所有可用的原始空间 (MAX_AVAIL < AVAIL)
我有一个 Ceph 集群,旨在作为 CephFS 在硬盘驱动器机箱上运行,为多个服务器提供总共 9PiB 的原始空间。
我创建了一个 3+3 擦除编码池,它应该跨越我的硬盘驱动器的整个原始空间。
令人惊讶的是,它似乎只占用了 9PiB 中的 6PiB,所以当我向其中写入 ~2.5PiB 数据(以及 ~2.5PiB 更多校验和)时,它说我只有 500TiB 可用空间(对应于 1PiB 原始空间)。
这是输出ceph df
:
请注意池 cephfs_erdata 部分中的MAX AVAIL
列POOLS
指出只剩下 500TiB,而AVAIL
列中的列RAW STORAGE
hdd
CLASS
有 3.7PiB 可用。
这意味着什么?我可以为该池分配更多空间吗?为什么 Ceph 本身不为其分配所有可用空间?
ceph - ceph raw used 超过所有池中使用的总和(ceph df 详细信息)
首先对我糟糕的英语感到抱歉 在我的 ceph 集群中,当我运行ceph df detail
命令时,它显示如下结果
所以我对结果有疑问如您所见,我的池使用的存储总和小于 1 TB,但在RAW STORAGE
部分使用的 HDD 硬盘为 10TB 并且每天都在增长。我认为这是不寻常的这个 CEPH 集群有问题。
而且仅供参考的输出ceph osd dump | grep replicated
是
Ceph 版本ceph -v
Ceph OSD 版本 ceph tell osd.* version
返回所有 OSD,例如
Ceph 状态ceph -s
failover - Ceph MDS 会在“up:replay”中停留数小时。MDS 故障转移需要 10-15 小时
我们有 9 个节点的 Ceph 集群。Ceph 版本是 15.2.5。集群有 175 个 OSD (HDD) + 3 个 NVMe 用于“cephfs_data”池的缓存层。CephFS 池信息:
我们使用多个活动 MDS 实例:3 个“活动”和 3 个“备用”。每个 MDS 服务器有 128GB RAM,“mds 缓存内存限制”= 64GB。
故障转移到备用 MDS 实例需要 10-15 小时!客户端一直无法访问 CephFS。MDS 实例一直处于“up:replay”状态。看起来 MDS 恶魔在此步骤中检查了所有文件夹。我们有数百万个包含数百万个小文件的文件夹。完成文件夹/子文件夹扫描后,CephFS 将再次处于活动状态。我相信 MDS 故障转移期间 10 小时的停机时间是出乎意料的行为。有什么方法可以强制 MDS 将状态更改为活动并在后台运行所有必需的目录检查?如何定位根本原因?
PS:我们尝试了standby-replay,它有帮助,但不能消除根本原因。
kubernetes - ceph 15.2.4 -- 身份验证更改 -- 无法与 kubernetes 重新连接
昨天,我的队友找到了一种方法来禁用 cephx 身份验证集群范围(2 个服务器集群),以绕过阻止我们加入第三个服务器的问题。不幸的是,他们不确定采取哪些步骤可以成功添加。我请求帮助让我的 ceph 再次运行。昨天我们在编辑 /etc/ceph/ceph.conf 后停止,在这里重新打开身份验证,然后将文件复制到 /var/lib/ceph/ / /config 并确保权限设置为 644。
这得到了一个以前没有的命令——我的ceph osd df再次正确显示了所有 24 个 OSD,但我无法运行ceph osd 状态或 ceph orch 状态。
ceph - CEPH Octupus:ceph 命令挂起。普罗米修斯也没有数据
我遇到了ceph的问题。我无法运行任何 ceph 命令。它真的挂了。我需要按 CTRL-C 来得到这个:
^C集群连接中断或超时
这是在 Ubuntu 16.04 上。另外,我使用 Graphana 和 Prometheus 从集群中获取信息,但现在没有数据可以绘制。有什么线索吗?
cephadm 版本信息:cephadm:使用最近的 ceph 图像 ceph/ceph:v15 ceph 版本 15.2.4 (7447c15c6ff58d7fce91843b705a268a1917325c) 章鱼(稳定)
先感谢您。
ceph - ceph - 对网络变化的弹性 - 在 IP 地址分配更改后恢复磁盘
ceph 似乎对网络移动和变化不太适应。可能是因为 IP 地址被存储为组成 ceph 集群的系统的标识。
问题:最近我们的集群在几乎没有任何警告的情况下被物理移动,ceph 被关闭并且系统在移动之前被关闭。新位置分配了不同的 IP 地址,当集群重新启动并分配了新的 IP 地址时,ceph 无法正确启动。
可能的解决方案:避免永久存储 IP 地址和主机名。相反,当 ceph 集群启动时,应该在运行时建立主机名和物理设备之间的关联。
如果 IP 地址和主机名必须保存在持久存储中,则应该有一个工具可以在不同的网络配置之间轻松迁移。
有关失败案例 的更多信息 ceph-mon.*.asok 套接字不存在,因为监控服务无法启动。阻止监视器启动的错误似乎是监视器无法连接到集群 - 因为如前所述,我们的集群被快速关闭并且 IP 地址没有以受控方式更改。监视器日志充满了以以下绑定错误开始的尝试:处理器 -- 绑定在 3 次尝试后无法绑定:(99) 无法分配请求的地址
尝试迁移到新网络配置的事情 起点是使用新的 IP 地址配置更新 ceph.conf 并重新运行ceph-deploy admin(ceph 版本是 Nautilus)以将新的管理员配置推送到网络。但是,这不会更新 ceph 粉碎地图。研究了各种旧讨论,例如https://tracker.ceph.com/issues/3550和用户文档https://docs.ceph.com/en/latest/rados/operations/add-or-rm-mons/ #changed-a-monitor-s-ip-address,但没有找到真正可行的解决方案。
所以我问这个问题,看看是否有其他人遇到过同样的问题,如果有,真正的专家认为只在运行时关联主机名/IP 地址和物理设备,并在 ceph 启动期间实现关联的发现阶段制作。或者当然也许还有另一个更好的解决方案?
git - CephFs 和 CephRBD 对 git clone 的速度很慢
我已经在 kubernetes 集群中部署了 ceph 集群,并尝试使用 CephFs 和 CephRbd typ 的卷挂载来 git 克隆 Pod 内的存储库。
尽管将所有文件写入卷需要大量时间。
git 存储库大约有 4GB 大小。
想知道这是否是正常行为?
眼镜:
4 个 kubernetes 节点 - 1 个主节点 + 3 个从节点 3 个 OSD 3 个 mon 1 个元数据服务器 1 个 mnager 守护进程
ceph 用作存储的 3 个节点是 100Gb 大小的第二个 ssd 驱动器。