在Ceph集群中,OSD(Object Storage Daemon)扮演着非常关键的角色,负责管理数据的存储和检索。然而,在集群运行过程中,有时会出现OSD down或者up的情况,这可能会对整个集群的稳定性和性能造成影响。 首先,让我们来解释一下OSD down和up的含义。当一个OSD处于down状态时,意味着它暂时无法正常工作,可能是由于网络故障、...
ceph healthHEALTH_ERR 1 nearfull osds, 1fullosdsosd.2isnearfullat85%osd.3isfullat97% 1. 2. 3. 4. 处理这种情况的方法就是在出现 near full 告警时尽快增加新的 ceph-osd ,这允许集群把数据重分布到新 OSD 里。 如果因满载而导致 OSD 不能启动,你可以试着删除那个 OSD 上的一些数据。但是这时有...
Tip:较新版本的 Ceph 能更好地处理恢复,可防止恢复进程耗尽系统资源而导致 up 且 in 的 OSD 不可用或响应慢。 网络问题 Ceph 是一个分布式存储系统,所以它依赖于网络来互联 OSD 们、复制对象、从错误中恢复和检查心跳。网络问题会导致 OSD 延时和震荡(反复经历 up and down,详情可参考下文中的相关小节) 。
比如集群有两个osd(osd.1,osd.2)共同承载着一批PG来服务业务io。如果osd.1在某个时刻down了,并且随后osd.2也down了,再随后osd.1又up了,那么此时osd.1是否能提供服务? 如果osd.1 down掉期间,osd.2有数据更新,那么显然osd.1再次up后是不能服务的;但是如果osd.2没有数据更新,那么osd.1再次up后是可以提供...
在Ceph集群中,OSD的“up”状态尤为重要。当一个OSD处于“up”状态时,表示该OSD正常工作,可以接受客户端的读写请求,并参与数据的复制和迁移等操作。而当一个OSD处于“down”状态时,表示该OSD无法正常工作,可能是由于硬件故障、网络问题或其他原因导致的。
osd.0 is down since epoch 23, last address 192.168.106.220:6800/11080 如果有硬盘失败或其它错误使 ceph-osd 不能正常运行或重启,将会在日志文件 /var/log/ceph/ 里输出一条错误信息。 如果守护进程因心跳失败、或者底层核心文件系统无响应而停止,查看 dmesg 获取硬盘或者内核错误。
当ceph-osd挂掉时,monitor 可通过活着的ceph-osd了解到此情况,并通过ceph health命令报告: ceph health HEALTH_WARN 1/3 in osds are down 特别地,有ceph-osd进程标记为in且down的时候,你也会得到警告。你可以用下面的命令得知哪个ceph-osd进程挂了: ...
Ceph 是一个分布式存储系统,所以它依赖于网络来互联 OSD 们、复制对象、从错误中恢复和检查心跳。网络问题会导致 OSD 延时和震荡(反复经历 up and down,详情可参考下文中的相关小节) 。 确保Ceph 进程和 Ceph 依赖的进程已建立连接和/或在监听。 netstat -a | grep ceph netstat -l | grep ceph sudo netstat...
当ceph-osd 挂掉时,monitor 可通过活着的 ceph-osd 了解到此情况,并通过 ceph health 命令报告: ceph health HEALTH_WARN1/3inosds are down 特别地,有 ceph-osd 进程标记为 in 且 down 的时候,你也会得到警告。你可以用下面的命令得知哪个 ceph-osd 进程挂了: ...
Ceph 通常是自我修复的。但是,当问题仍然存在时,监控 OSD 和归置组将帮助您识别问题。 监控OSD OSD 的状态是在集群中(in)或集群外(out);并且,它要么启动并运行 ( up),要么已关闭且未运行 ( down)。如果一个 OSD 是up,它可能是in(你可以读写数据)或者是out的。如果是 in并且最近移动out,Ceph 会将归置组...