news 2026/2/21 7:15:20

ceph平台-未及时移除故障osd导致根目录100%问题的故障记录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ceph平台-未及时移除故障osd导致根目录100%问题的故障记录

项目场景:

一个甲方的ceph集群,osd日志拉满导致根目录100%


问题描述

甲方联系说有点问题,远程处理。
首先登陆到控制节点发现根目录满了,检查定位到日志目录,所有osd日志大小几乎一致。
然后检查所有存储节点都有类似问题。
打开日志文件分析原因,下面放三个osd日志的截图



全部在16:57 指向到secret_id:44281


原因分析:

千问的回答

  1. auth: could not find secret_id=44281
    含义:Ceph Monitor(或 OSD)在验证某个客户端身份时,找不到 ID 为 44281 的密钥。
    ✅ 这个 secret_id 是 Ceph 内部生成的唯一标识,用于关联一个实体(如 osd.5)的认证密钥。
  2. cephx: verify_authorizer could not get service secret for service osd secret_id=44281
    含义:使用 cephx 协议验证时,无法获取对应 osd 服务的密钥。
    ❌ 表明:该 OSD 的 keyring 已被删除、损坏,或未正确同步到 MON 数据库。
  3. .accept: got bad authorizer
    含义:连接被拒绝,因为客户端提供的认证票据无效。
    ⚠️ 通常出现在:
    OSD 使用旧密钥尝试连接 MON
    OSD 被删除后仍在运行
    keyring 文件被手动修改或丢失

操作

感觉是坏掉的osd没有及时删除的问题。

第一步: 先处理根目录100%
所有ceph节点的所有osd日志追空

第二步:执行ceph osd命令
ceph命令没有返回,检查mon服务,全死。挨个mon节点重启mon服务

第三步:通过osd相关命令找到坏掉的osd,然后完全删除掉
执行删除命令后,集群进入恢复模式

第四步:观察集群恢复,同时不定期检查osd日志大小,看是否还有异常

forXin{1..14};dosshXX.XXX.X.$X'hostname ; rm -rf /var/log/ceph/*.gz ;ls -ln -h /var/log/ceph/ ';done

第五步:等待集群恢复完毕后,重启所有osd服务

第六步:持续多天检查osd日志大小和集群状态


解决方案:

osd坏了及时换盘,没有的话要及时完全删除掉

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/16 5:01:52

幻影API聚合管理系统源码基于 PHP+Mysql 进行开发

幻影API聚合管理系统源码,基于 PHPMysql 进行开发的,拥有多接口管理功能,支持不同的计费方式包括包月、按次、会员专享。用户可以全自动注册使用,系统支持在线调试和日志记录。现有API接口只需要几行代码就可以接入本系统&#xf…

作者头像 李华
网站建设 2026/2/14 3:59:08

Skills:AI能力封装协议的深度剖析,从原理到商业应用

不知道是因为推流算法,还是其他什么原因,最近打开小红书,微信公众号满屏满眼都是“教你怎么用 Skills”,“Skills 如何创造颠覆性产品”,“Skills Hub 站如何成就下一个‘死了么’”之类的文章。长期低估,短…

作者头像 李华
网站建设 2026/2/16 13:36:40

Qwen3-Coder-Next 昇腾适配:开发者在线体验一站式通关指南

2 月 4 日,Qwen3-Coder-Next 正式对外开源发布。该模型面向编程智能体与本地开发场景打造,提供完整开源权重,适合开发者进行二次开发与工程集成。昇腾已适配支持该模型,相关模型与权重已同步上线 AtomGit AI。 👉 立即…

作者头像 李华
网站建设 2026/2/15 5:55:04

基于深度学习的相位图生成与时间序列预测系统

基于深度学习的相位图生成与时间序列预测系统 摘要 本文介绍了一种基于深度学习的方法,通过相机采集的图像序列生成对应的相位图,并实现基于时间序列的相位图预测。系统采用编码器-解码器架构处理图像到相位的映射,并结合时序模型实现帧间预测。本文将详细阐述系统设计、模…

作者头像 李华
网站建设 2026/2/21 16:01:30

Canvas 画板的实现 2.0:支持放大、缩小

在 1.0 版本中,画板已经具备“好用”的基础能力,但一旦用户想细画或写字时,缩放就成了刚需。本篇记录我为画板加入“放大/缩小”的实现思路:既保留 1.0 的绘制体验,又在缩放过程中保证笔迹精度与交互一致性。 目标与约…

作者头像 李华
网站建设 2026/2/20 22:18:48

领英收不到验证码怎么办? 解决方案全解析

在注册或登录 LinkedIn 时,很多用户都会遇到同一个问题:页面提示“验证码已发送”,但邮箱或手机始终收不到。 甚至有时会直接提示“已超出验证请求次数”。这类问题看似是短信或邮箱故障,实际上更多与 LinkedIn 的风控机制有关。一…

作者头像 李华