news 2026/6/15 6:19:32

超融合环境 CentOS 7.9 磁盘损坏修复实战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
超融合环境 CentOS 7.9 磁盘损坏修复实战

0. 问题背景:120 秒的“死亡之吻”

在超融合(HCI)架构中,当存储网络发生微秒级的抖动,上层虚拟机可能感知到的是长达120s的 I/O 阻塞。

  • 报错关键词INFO: task postmaster:2345 blocked for more than 120 seconds
  • 后果:数据库进程(PostgreSQL)强制挂起,XFS 文件系统元数据在内存与磁盘的非同步状态下崩溃。

1. 修复全流程:从标准操作到异常应对

阶段一:进入救援 Shell

【标准命令】
在 GRUB 菜单按e,在linux16行末添加rd.break,按Ctrl+X启动。

【遇到的异常 1】:无法输入任何命令,或者提示文件系统只读。

  • 原因:紧急模式默认挂载/sysroot为只读。
  • 极限拉扯
mount-o remount,rw /sysroot

阶段二:寻找“失踪”的逻辑卷

【标准命令】
尝试修复根分区:xfs_repair -L /dev/mapper/centos-root

【遇到的异常 2】:执行修复时,发现fstab中定义的/home(即报错中的dm-2) 在/dev/mapper/彻底消失了。

  • 原因:HCI 环境下的 LVM 元数据未在 initramfs 阶段自动激活。
  • 极限拉扯
# 强制激活所有逻辑卷lvm vgchange -ay# 强制重新生成设备节点(如果还看不见 dm-2)lvm vgmknodes# 此时再次 ls /dev/mapper/ 才会出现 centos-home

阶段三:修复命令的“断粮”危机

【标准命令】
修复所有分区并创建.autorelabel文件。

【遇到的异常 3】:输入touch /sysroot/.autorelabel提示-bash: touch: command not found

  • 原因:救援环境极其简陋,很多常用二进制工具未打包。
  • 极限拉扯(利用 Shell 重定向特性):
# 既然没有 touch,就用重定向“空”创建一个文件>/sysroot/.autorelabel# 检查确认ls-a /sysroot/|grep.autorelabel

阶段四:突破“进度条”的死循环

【标准命令】
退出救援模式重启。

【遇到的异常 4】:重启后系统依然卡在progress polling进度条,或者 GNOME 图形界面转圈。

  • 原因
  1. xfs_repair -L强制清空日志后,SELinux 标签不一致导致启动被拦截。
  2. 底层存储响应依然缓慢,无法支撑图形界面(GDM)的重型加载。
  • 极限拉扯
    再次进入 GRUB,删除rhgb quiet,并添加:
    3 selinux=0
  • 3:直接进 Runlevel 3(字符模式),减小 I/O 压力。
  • selinux=0:强行拆掉权限门禁。

2. 异常与对策速查表 (Cheat Sheet)

遇到的异常现象背后隐藏的真相解决的“救命命令”
修复时找不到设备路径LVM 卷组在紧急模式下未激活lvm vgchange -ay && vgmknodes
xfs_repair提示设备忙分区已被自动挂载umount /dev/mapper/xxx
touch/lvs命令不存在Initramfs 环境路径不全使用lvm lvs或重定向> 文件名
修完磁盘依然进不去系统SELinux 标签错乱或 GUI 卡死GRUB 加入3 selinux=0并删rhgb

3. 深度优化:为什么这台机器需要特别对待?

在这台 DB 服务器的拉扯中,最核心的教训是:不能依赖系统的自动引导

  1. 分区的联动性:虽然报错是dm-0,但因为/home分区(dm-2)在同一个存储池,底层存储抖动会造成全盘元数据损坏。必须全盘修复,不能漏掉任何一个挂载点。
  2. HCI 的滞后性:超融合修复后,磁盘响应可能仍有长达数分钟的“预热期”。进入Runlevel 3是给系统留出喘息空间的最佳实践。

4. 下一步:从“活下来”到“跑得稳”

既然现在已经修复,你应该立即执行以下动作进行深度加固:

1. 数据库逻辑一致性体检 (PostgreSQL 专场)

物理修复(xfs_repair -L)意味着“丢掉最后几秒日志”。这对数据库是致命的:

  • 命令:登录数据库执行REINDEX DATABASE your_db;(重建索引)。
  • 检查:使用amcheck扩展检查 B-tree 索引是否断裂。

2. 内核参数永久调优

防止下次 HCI 抖动时 Linux 反应过度。

  • 修改/etc/sysctl.conf
# 允许内核多等一会儿存储,不要轻易认为进程死锁kernel.hung_task_timeout_secs=600

3. 给超融合厂商的“罪证报告”

/var/log/messages中那段blocked for more than 120 seconds的日志截图,并告知他们:由于物理 I/O 链路响应超时,导致上层虚拟机触发了 XFS 元数据强制修复。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 16:21:09

开题报告“救星”驾到!书匠策AI如何让你的研究赢在起点?

对于科研小白来说,开题报告就像一道高耸的学术门槛——选题撞车、文献堆砌、逻辑混乱、格式错误……这些问题像无形的绊脚石,让许多人还未出发就摔得头破血流。但别慌!今天要介绍的科研神器——书匠策AI(官网:www.shuj…

作者头像 李华
网站建设 2026/6/13 3:18:29

高性价比拉篮品牌推荐,六款精工之选,点亮你的厨房收纳空间

厨房收纳,是提升家居幸福感的关键一环。面对有限的橱柜空间,一款设计合理、品质过人的拉篮,往往能起到“四两拨千斤”的作用。它不仅关乎整洁美观,更直接影响到日常烹饪的便捷与效率。然而,市场上拉篮品牌繁多&#xf…

作者头像 李华
网站建设 2026/6/13 21:52:08

支持私有化部署的企业级培训考试系统源码,提供多种练习模式

温馨提示:文末有资源获取方式企业内部培训常常面临数据敏感、流程繁杂、效果难追踪等痛点。针对这些挑战,我们为您推荐一款支持私有化部署的企业级培训考试系统源码。它不仅仅是一套软件,更是一个安全、自主、可深度定制的数字化培训基础设施…

作者头像 李华
网站建设 2026/6/13 20:32:03

『React』组件副作用,useEffect讲解

在 React 开发中,有时候会听到“副作用”这个词。特别是用到 useEffect 这个 Hook 的时候,官方就明确说它是用来处理副作用的。那什么是副作用?为什么我们要专门管控它?今天就聊聊 React 中的组件副作用。 📌 什么是“…

作者头像 李华
网站建设 2026/6/13 6:10:26

参考文献崩了?AI论文网站 千笔ai写作 VS speedai,自考写作者的高效之选!

随着人工智能技术的迅猛发展,AI辅助写作工具正逐步渗透到高校学术写作场景中,成为专科生、本科生、研究生完成毕业论文不可或缺的得力助手。越来越多的学生在面对繁重的论文任务时,开始依赖AI工具来提升写作效率、优化内容结构。然而&#xf…

作者头像 李华
网站建设 2026/6/13 17:15:47

绿色AI测试工具:碳足迹追踪在模型训练/推理的优化仪表盘

测试工程师的新战场 随着AI模型在软件测试中的广泛应用,其训练与推理的能源消耗已成为不可忽视的成本。一次Stable Diffusion推理消耗0.1-0.3度电,大规模商用累计能耗惊人。对测试团队而言,传统性能测试已无法满足可持续发展需求——碳足迹追…

作者头像 李华