谷桐羽 2025-10-06 14:20 采纳率: 98.1%

已采纳

Ceph重启后OSD挂载信息丢失，如何恢复？

Ceph集群重启后，部分OSD因挂载信息丢失无法正常启动，表现为OSD目录未挂载、数据盘未激活或systemd挂载单元失效。常见原因为fstab配置缺失、设备UUID变更或ceph-volume元数据损坏。如何在不影响数据安全的前提下，快速恢复OSD挂载并重新接入集群？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

白萝卜道士 2025-10-06 14:20

关注

一、问题背景与现象分析

Ceph集群在经历重启后，部分OSD（Object Storage Daemon）节点未能正常启动，表现为：

OSD数据目录未挂载（如/var/lib/ceph/osd/ceph-*为空或未绑定设备）
底层数据盘未激活，lsblk显示设备存在但无挂载点
systemctl status ceph-osd@*报错“Device not found”或“Mount failed”
使用ceph-volume lvm list无法识别已存在的OSD逻辑卷

常见根本原因包括：

fstab配置缺失：系统重启后依赖/etc/fstab自动挂载，若条目丢失则挂载失败
设备UUID变更：磁盘热插拔、RAID卡重置或udev规则变动导致设备标识变化
ceph-volume元数据损坏：LVM标签丢失或/etc/ceph/osd/*元数据文件异常

二、诊断流程与关键检查项

为确保数据安全，恢复前必须进行完整诊断。以下是标准排查顺序：

步骤	命令	预期输出
1. 检查物理设备状态	`lsblk -f`	确认设备存在且文件系统类型为xfs/btrfs
2. 验证LVM逻辑卷	`lvs -o +tags /dev/ceph-/osd-block-`	查看是否含`ceph.osd_id=*`等标签
3. 查询ceph-volume记录	`ceph-volume lvm list`	列出所有已注册的OSD信息
4. 检查fstab配置	`cat /etc/fstab \| grep osd`	确认有对应UUID的挂载条目
5. 查看systemd挂载单元	`systemctl list-units \| grep mnt-`	确认`mnt-var-lib-ceph-osd-*`是否存在
6. 检查OSD目录挂载状态	`mount \| grep ceph`	确认`/var/lib/ceph/osd/ceph-N`已绑定
7. 查阅日志线索	`journalctl -u ceph-osd@N`	定位具体错误（如device not found）
8. 核对udev设备路径	`udevadm info /dev/disk/by-path/* \| grep ID_SERIAL`	确认设备唯一性
9. 验证FS一致性	`xfs_repair -n /dev/ceph-vg/osd-lv`	只读检测文件系统完整性
10. 确认Ceph集群状态	`ceph -s`	观察OSD map中该OSD是否处于down状态

三、分场景恢复策略

根据诊断结果，采用不同恢复路径：

场景1：fstab条目丢失但LVM标签完整

# 获取逻辑卷挂载信息
ceph-volume lvm list | grep -A5 "osd id"

# 输出示例：
# data device: /dev/ceph-vg/osd-data-xxxx
# block device: /dev/ceph-vg/osd-block-xxxx
# devices: /dev/sdb

# 重新生成fstab条目（以xfs为例）
echo "UUID=$(blkid -s UUID -o value /dev/ceph-vg/osd-data-xxxx) /var/lib/ceph/osd/ceph-0 xfs defaults,noatime,inode64 0 2" >> /etc/fstab

# 手动挂载并启动OSD
mount /var/lib/ceph/osd/ceph-0
systemctl enable ceph-osd@0
systemctl start ceph-osd@0

场景2：设备UUID变更导致fstab失效

当磁盘被重新识别，原UUID不再匹配时：

使用blkid /dev/sdX获取新UUID
编辑/etc/fstab替换旧UUID
执行mount -o remount /var/lib/ceph/osd/ceph-N
验证ceph-volume lvm activate N <data_uuid>

场景3：ceph-volume元数据损坏

若ceph-volume lvm list无法识别OSD，但LVM存在：

# 手动重建元数据（关键操作需谨慎）
ceph-volume lvm recover --osd-id 0 --device /dev/sdb

# 或指定数据路径
ceph-volume lvm recover --osd-id 0 --data-dev /dev/ceph-vg/osd-data-xxxx

该命令将重新生成/etc/ceph/osd/ceph-0.json并修复systemd单元。

四、自动化恢复流程图

以下为推荐的标准化恢复流程：

graph TD A[OSD启动失败] --> B{检查lsblk与lvs} B -->|设备存在| C[检查ceph-volume lvm list] B -->|设备不存在| D[检查硬件连接与RAID状态] C -->|OSD可见| E[检查fstab与挂载点] C -->|OSD不可见| F[执行ceph-volume lvm recover] E -->|fstab缺失| G[根据blkid补全fstab] E -->|已配置| H[手动mount并启动OSD服务] G --> H F --> H H --> I[验证ceph -s中OSD up in cluster] I --> J[监控PG状态直至active+clean]

五、预防机制与最佳实践

为避免此类问题反复发生，建议实施以下措施：

定期备份/etc/fstab与/etc/ceph/目录
使用ceph-volume inventory建立磁盘台账
部署配置管理工具（如Ansible/Puppet）同步fstab
启用ceph-mgr device health模块监控磁盘状态
对关键OSD启用Zabbix或Prometheus告警规则
避免手动修改LVM结构，始终通过ceph-volume管理
在维护窗口执行重启，并预检ceph osd set-nodown
启用systemd-mount自动发现机制作为补充
对NVMe设备使用by-disk路径而非UUID
建立灾备恢复文档并定期演练

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

【Distributed】分布式Ceph存储系统
2023-07-14 19:18

我的宝贝大唐的博客存储基础——单机存储设备及其问题、商业存储解决方案、分布式存储及其类型，Ceph简介、优势、架构、核心组件、数据存储过程、版本发行生命周期、集群部署，OSD存储后端，基于ceph-deploy部署Ceph集群
Ceph
2022-11-03 17:51

小张同学该努力了的博客在它重启之后 Ceph会启动recovery过程来使其数据得到更新 12.Backfilling回填中（全量恢复）：一个新OSD加入集群后，Ceph会尝试将部分其他OSD上的PG挪到该新OSD上，该过程称为回填。与 recovery相比，回填是在零...
Ceph入门到精通-OSD 故障排除
2023-05-05 09:15

未来AI编程的博客启动共驻进程（融合），例如基于云的解决方案、虚拟机和其他将数据写入 Ceph 的应用程序，同时在与 OSD 相同的硬件上运行可能会引入显着的 OSD 延迟。如果您将 OSD 数据与元数据分开，并且您的配置文件或实际挂载中...
Ceph入门到精通-Cephadm：在重新安装的服务器上重用 OSD
2023-06-01 16:28

未来AI编程的博客在 cephadm 和容器化服务（但不比 Luminous 早）之前，从重新安装的主机中带回 OSD 非常简单，“ceph-volume”几乎可以为您做所有事情，但在 Ceph 编排器中有一个解决方案之前，我目前只看到这种“黑客”的方式。...
Centos7安装ceph集群
2020-08-20 11:13

奔放丶的博客 Centos7安装ceph集群 ####环境(本文采取的是centos7.5) client外其它每台准备一个空闲磁盘 ip 主机名角色 10.125.7.54 admin ceph-deploy 10.125.7.28 client ceph-client 10.125.7.65 node1 mon / osd...
ceph存储
2022-09-06 22:08

weixin_41973331的博客 GPL不允许修改后和衍生的代码做为闭源的商业软件发布和销售,修改后该软件产品必须也采用GPLGPLV2修改文本的整体就必须按照GPL流通,不仅该修改文本的源码必须向社会公开,而且对于这种修改文本的流通不准许附加修改者...
ceph知识树.pdf
2019-09-27 19:22

### ceph知识树.pdf #### 网络知识 **常用网络编程模型：** - **线程模型**：适用于客户端较少、任务简单的场景。 - **Epoll**：一种高效的I/O多路复用机制，适合高并发场景。 - **Kqueue**：类似于epoll，在BSD...
Glusterfs|ceph实现分布式存储
2021-11-02 14:31

xiaotanggao的博客一个新的硬盘在linux系统里使用一般来说就三步：（分区）-格式化-挂载，才能使用 linux上如何挂载ntfs格式的移动硬盘？ linux内核支持ntfs，但centos7系统没有编译该功能，解决方法：重新编译内核，在内核中...
梳理ceph的各组件及功能,基于ceph-deploy部署ceph集群,梳理块存储、文件存储及对象存储的使用场景,基于ceph块存储实现块设备挂载及使用,基于cephFS实现多主机数据共享
2023-01-30 15:24

yong_shh的博客梳理ceph的各组件及功能,基于ceph-deploy部署ceph集群,梳理块存储、文件存储及对象存储的使用场景,基于ceph块存储实现块设备挂载及使用,基于cephFS实现多主机数据共享
Ceph 分布式文件系统概述安装
2023-07-15 23:35

低温热源的博客 Ceph使用C++语言开发，是一个开放、自我修复和自我管理的开源分布式存储系统。具有高扩展性、高性能、高可靠性的优点。Ceph目前已得到众多云计算厂商的支持并被广泛应用。RedHat及OpenStack，Kubernetes都可与Ceph...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月6日