每个OSD周期性(默认300秒)的向Monitor发送Beacon消息证明自己存活,如果Monitor一段时间(默认900秒)没收到OSD的Beacon,就标记OSD为down。OSDdown后超过600S,会被标记为out(Monitor通过 一个名为 mon_osd_down_out_subtree_limit 的配置项来限制自动数据迁移的粒度,例如设置为主机,则 当某个主机上的OSD全部宕掉时,...
OSD是Ceph集群的关键组件之一,负责存储和管理对象数据。一个Ceph集群通常包含多个OSD,它们分布在不同的物理节点上,以确保数据的冗余和高可用性。 在Ceph集群中,OSD状态的监控和管理至关重要。通过监控OSD状态,管理员可以及时发现并解决潜在的问题,保障集群的正常运行。常见的OSD状态包括up、down、in、out等。up表示该O...
#将一个 osd 逐出集群,即下线一个 osd,此时可以对该 osd 进行维护 $ ceph osd out 0 1. 2. 2.7 osd加入集群 #把一个 osd 加入集群,即上线一个 osd $ ceph osd in 0 1. 2. 2.8 删除osd #在集群中删除一个 osd,可能需要先 stop 该 osd,即 stop osd.0 $ ceph osd rm 0 1. 2. 2.9 从cru...
#将一个 osd 逐出集群,即下线一个 osd,此时可以对该 osd 进行维护$ ceph osdout0 2.7 osd加入集群 #把一个 osd 加入集群,即上线一个 osd$ ceph osdin0 2.8 删除osd #在集群中删除一个 osd,可能需要先 stop 该 osd,即 stop osd.0$ ceph osd rm0 2.9 从crush map中删除osd #从 crush map 中删除...
OSD全称Object Storage Device,也就是负责响应客户端请求返回具体数据的进程。一个Ceph集群一般都有很多个OSD。 2. 常用操作 2.1 查看osd状态 $ ceph osd stat 5 osds: 5 up, 5 in 状态说明: 集群内(in) 集群外(out) 活着且在运行(up) 挂了且不再运行(down) ...
OSD故障后对外部展示的4种状态如下图: up、down代表OSD临时故障或下电,不会发起数据恢复;in、out代表被踢出集群,集群发起数据恢复 所有类型的故障会记录再osdmap后报告到Monitor,然后扩散至集群,其他OSD收到消息后采取对应的措施。 Monitor通过一下三种方式检测OSD故障(下电): ...
监控OSD OSD 的状态是在集群中(in)或集群外(out);并且,它要么启动并运行 ( up),要么已关闭且未运行 ( down)。如果一个 OSD 是up,它可能是in(你可以读写数据)或者是out的。如果是 in并且最近移动out,Ceph 会将归置组迁移到其他 OSD。如果一个 OSD 属于out,CRUSH 不会将归置组分配给该 OSD。如果一个 ...
OSD状态的描述分为两个维度:up或者down(表明OSD是否正常工作),in或者out(表明OSD是否在至少一个PG中)。因此,对于任意一个OSD,共有四种可能的状态:- up且in:说明该OSD正常运行,且已经承载至少一个PG的数据。这是一个OSD的标准工作状态;- up且out:说明该OSD正常运行,但并未承载任何PG,其中也没有数据。一个新...
它是 up 和 running、upup 或down。如果 OSD 为up,它可以位于存储集群中,其中可以读取和写入数据,或者存储集群之外。如果集群中有它,并且最近从集群中移出,Ceph 会将放置组迁移到其他 OSD。如果 OSD超出集群,CRUSH 不会将 PG 分配给 OSD。如果 OSD 为down,它也应为out。
(1)使用ceph osd out命令将故障磁盘标记为out状态。 (2)使用ceph osd crush remove命令将故障磁盘从CRUSH图中删除。 (3)使用ceph auth del命令删除故障磁盘的认证密钥。 (4)使用ceph osd rm命令将故障磁盘从集群中删除。 安装新的磁盘 安装新的磁盘可以通过以下步骤来完成: ...