Kubernetes 生产排障：先看事件，再看日志-洪萨配资

Kubernetes 生产排障：先看事件，再看日志

一、K8s 排障别一上来进容器

很多人排 Kubernetes 问题，第一反应是kubectl exec进容器看日志。不是不行，但顺序常常错了。Pod 起不来、反复重启、镜像拉不下来、调度失败，这些问题在事件里已经写得很清楚。先看事件，少走弯路。

K8s 排障要有节奏：资源状态、事件、描述、日志、指标、节点。不要像无头苍蝇一样到处敲命令。生产环境里，排障速度来自固定路径。

二、排障链路：从对象状态到节点

flowchart TD A[发现异常] --> B[kubectl get] B --> C[kubectl describe] C --> D[查看 Events] D --> E[查看 Logs] E --> F[检查 Node 与资源]

Events 能告诉你很多真相：FailedScheduling、ImagePullBackOff、BackOff、Unhealthy、Killing。看到这些关键词，就能迅速缩小范围。

三、命令清单：先拿到证据

kubectl get pod -n prod -o wide kubectl describe pod ai-infer-xxx -n prod kubectl logs ai-infer-xxx -n prod --previous kubectl get events -n prod --sort-by=.lastTimestamp

--previous很重要。容器重启后，当前日志可能看不到崩溃前信息。上一轮容器日志经常能直接看到 panic、OOM 或配置错误。

四、工程边界：别把所有问题都怪 K8s

K8s 只是把问题暴露得更明显。探针写错会导致重启，资源限制太小会 OOM，镜像过大导致拉取慢，应用启动慢但 readiness 没处理，会被提前打流量。很多所谓 K8s 问题，本质是应用没有按云原生方式设计。

取舍方面，探针严格能快速摘除坏实例，但误杀风险高；探针宽松减少误杀，但坏实例可能继续接流量。生产里要根据服务特性设置。AI 服务、JVM 服务、前端 SSR 服务启动时间都不同，探针不能复制粘贴。

还要保留排障上下文。事故时记录 Pod 状态、事件、最近发布、节点资源和关键日志。恢复后这些信息可能消失。没有证据的复盘，只能写“疑似资源抖动”，这种复盘没价值。

节点层面也不能漏。Pod Pending 可能是资源不足、亲和性规则太窄、污点不可容忍，也可能是 PVC 绑定失败。kubectl describe node、节点 allocatable、磁盘压力和镜像缓存都要看。很多排障卡住，是因为只盯 Pod，不看它落在哪个节点。

如果是线上核心服务，建议准备固定排障脚本，把 get、describe、events、logs、top、recent rollout 一次性收集。事故时人会紧张，脚本能保证证据不漏。排障不是临场 freestyle，越关键越要有固定鼓点。

最后，复盘要回到预防。是资源 request 写错，就补准入检查；是探针误杀，就修模板；是镜像拉取慢，就做预拉取或镜像治理。排障结束不等于问题结束。

排障时还要注意时间线。报警什么时候触发，发布什么时候发生，Pod 什么时候重启，节点什么时候出现压力，事件顺序能帮助判断因果。不要看到两个现象同时出现就直接认定相关。K8s 现场信息多，时间线能把噪声压下去。

如果涉及多集群或多命名空间，要先确认影响范围。只影响一个 namespace，可能是配额或配置；影响整个节点池，可能是节点资源或网络；影响全集群，才去看控制面。范围判断越快，排障越稳。

五、总结

Kubernetes 生产排障要先看对象状态和 Events，再看日志和节点资源。固定排障路径，比临场乱敲命令更可靠。很多 K8s 问题，根因其实在应用设计。

AI 性能压测分析：让模型读报告，不要让它替你下结论

AI 性能压测分析：让模型读报告，不要让它替你下结论一、压测结果需要证据链性能压测后，团队常常面对一堆指标：QPS、平均延迟、P95、P99、CPU、GC、数据库连接池、缓存命中率、队列堆积。AI 可以帮助整理这些数据，生成…

李华

哈希表题解：O(1) 查询背后也有边界

哈希表题解：O(1) 查询背后也有边界一、哈希表不是无脑加速器哈希表在算法题里太常见了：两数之和、最长连续序列、字母异位词、前缀和计数。它的优势是平均 O(1) 查询，但这不代表可以无脑使用。哈希表会消耗空间，也会带来 key 设…

李华

Java中return与异常抛出的优先级详解：一个容易被忽视的陷阱

博客主页：https://tomcat.blog.csdn.net 博主昵称：农民工老王主要领域：Java、Linux、K8S 期待大家的关注💖点赞👍收藏⭐留言💬 目录一、问题的起源二、核心规则：finally中的return会覆盖一切规…

李华

【每天认识一个国家 | 法国】

一、国家名片项目内容中文名称法兰西共和国简称法国英文名称France法语名称Rpublique franaise首都巴黎最大城市巴黎国土面积约55万平方公里，本土人口约6800万官方语言法语货币欧元国家体制半总统共和制国庆日7月14日国际电话区号33国家代码FRA二、西欧大国法国位于…

李华

在流量渠道日益碎片化的 2026 年，单一的线上推广已经很难满足企业的获客需求：只做短视频有流量但缺乏信任承接，只做网站有品牌阵地但没有流量入口，只做 GEO 优化能被 AI 推荐但缺乏内容支撑。越来越多的企业开始寻求多渠道组合的获…

李华

Kubernetes 生产排障：先看事件，再看日志