Ceph的PG常见状态以及异常处理

沉默的八哥

于 2025-03-27 15:04:53 发布

阅读量784

点赞数 12

分类专栏：运维文章标签： ceph

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bltyu2000/article/details/146560201

版权

运维专栏收录该内容

29 篇文章

订阅专栏

Ceph的PG（Placement Group）是数据分布和复制的核心单元，其状态反映了数据存储的健康情况。以下是PG的常见状态及异常处理指南：

一、PG的常见状态

1. 基础状态

active PG可正常处理读写请求。
clean 数据已完全复制到所有OSD，无副本丢失。
peering PG正在与相关OSD同步元数据，暂不可用（短暂状态）。
degraded 部分数据副本丢失（如OSD故障），但数据仍可读写。
undersized 当前副本数低于配置的副本数（如size=3但只有2个副本在线）。
stale PG的主OSD未按时向Monitor报告状态（可能OSD宕机或网络问题）。
remapped PG的主OSD变更，数据正在迁移到新主OSD。
scrubbing / deep 正在进行数据一致性校验（deep为深度校验）。

2. 恢复相关状态

recovering 数据正在从其他副本恢复。
backfilling 数据正在重新分布到新OSD（如扩容后）。
incomplete PG无法完成恢复（如副本不足，无法重建数据）。

3. 异常状态

inconsistent 数据副本不一致（需手动修复）。
down PG无法访问（可能OSD全挂）。
stuck inactive PG长时间卡在inactive状态（需人工干预）。
stuck unclean PG无法达到clean状态。

二、PG异常处理步骤

1. 检查集群状态

# 查看整体健康状态
ceph health detail

# 列出所有异常PG
ceph pg stat

2. 定位具体PG问题

# 查看指定PG的详细信息（替换<pg_id>）
ceph pg <pg_id> query

3. 处理常见异常场景

场景1：`degraded`或`undersized`

原因：OSD下线或故障。
解决：
1. 检查OSD状态：
```
ceph osd stat
ceph osd tree
```
2. 启动故障OSD（若硬件正常）：
```
systemctl start ceph-osd@<osd_id>
```
3. 若OSD无法恢复，标记为out并等待数据重平衡：
```
ceph osd out <osd_id>
```

场景2：`stale`

原因：主OSD未上报状态。
解决：
1. 检查主OSD是否宕机：
```
ceph osd find <osd_id>
```
2. 重启主OSD或修复网络问题。

场景3：`inconsistent`

原因：数据副本不一致。
解决：
1. 触发修复：
```
ceph pg repair <pg_id>
```
2. 若修复失败，手动选择正确副本：
```
ceph pg <pg_id> mark_unfound_lost revert
```

场景4：`stuck inactive`或`stuck unclean`

原因：PG无法自动恢复。

解决：

重启相关OSD：
```
systemctl restart ceph-osd@<osd_id>
```

调整恢复参数（临时调高并发）：

ceph tell osd.* injectargs '--osd-max-backfills=4'

4. 强制重置PG（谨慎操作）

# 重置PG状态（仅在极端情况下使用）
ceph pg force_create_pg <pg_id>

5. 检查数据完整性

# 触发手动Scrub
ceph pg scrub <pg_id>

三、关键命令速查

命令	用途
`ceph -s`	查看集群摘要
`ceph pg dump --format json`	导出所有PG详细状态（JSON格式）
`ceph osd blocked-by`	查看阻塞恢复的OSD
`ceph osd reweight <osd_id> <weight>`	调整OSD权重以平衡数据

四、预防措施

监控告警 部署Prometheus + Grafana监控，重点关注active+clean比例和OSD状态。
定期维护 每月执行一次deep-scrub，检查数据一致性。
容量规划 避免单个OSD负载过高，保持剩余空间>20%。
避免过载 调整参数限制恢复速度，防止影响业务：
```
ceph tell osd.* injectargs '--osd-recovery-max-active=3'
```

通过以上方法，可快速定位并修复PG异常，确保Ceph集群稳定运行。复杂场景建议参考Ceph官方文档或社区支持。

沉默的八哥

博客等级

码龄4年

58
原创

700
点赞

661
收藏

331
粉丝

关注

私信

热门文章

分类专栏

运维 29篇
Linux 17篇
Mysql 3篇
python 1篇
clickhouse 2篇
git 2篇
Docker 1篇
Java 8篇

展开全部收起

上一篇：: Linux中Nginx 生成日志改为按天切割

下一篇：: Pod 网络与 CNI 的作用

最新评论

CentOS 7.9 安装 Python 3.10 详细步骤及常见问题解决
i7杨: 感觉代码框颜色换一换，看不清
Docker基本概念以及安装与使用
普通网友: 好文！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
Linux启动过程
CSDN-Ada助手: 恭喜您写了第15篇博客《Linux启动过程》，内容详实，让读者受益匪浅！希望您能继续保持创作的热情和耐心，不断分享您的知识和经验。下一步建议可以尝试深入研究Linux系统的网络配置或者安全设置等方面的内容，让读者对Linux系统有更全面的了解。期待您的下一篇精彩文章！愿您不断进步，共同学习成长。
Linux内核相关概念
CSDN-Ada助手: 恭喜您写了第16篇博客，标题为“Linux内核相关概念”，内容一定是相当有深度和价值的。希望您能继续保持写作的热情和耐心，分享更多关于Linux内核的知识。或许下一步可以深入探讨一些实际应用场景或者案例分析，这样读者们会更好地理解和运用这些概念。期待您的更多精彩文章，加油！
Java网络基础知识
秋说: 博主的文章细节很到位，兼顾实用性和可操作性，对我有很大帮助，已经关注持续学习，也希望博主能来我的博客指点一二，感谢感谢

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沉默的八哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。