news 2026/2/24 17:57:15

[K8S监控]-K8S容器pod异常状态监控脚本并推送钉钉告警

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[K8S监控]-K8S容器pod异常状态监控脚本并推送钉钉告警

1. 监控需求

检测k8s集群中异常状态的pod容器,并通过钉钉告警推送提醒,通过Shell脚本实现。

2. 完整脚本

cat k8s_pod_status_monitor.sh

#!/bin/bash # K8s Pod状态监控钉钉告警脚本 # 作者:LMZF # 日期:2025-12-15 ############################ 配置区域 ############################ # 钉钉机器人webhook地址(必填) DINGDING_WEBHOOK="https://oapi.dingtalk.com/robot/send?access_token=c8452b88888888888888888888888888888888888888888888888888" # 钉钉消息中需要包含的关键词(用于安全校验) DINGDING_KEYWORDS="告警" # 可选的命名空间过滤(默认检查所有命名空间) NAMESPACE_FILTER="--all-namespaces" # NAMESPACE_FILTER="-n default" # 只检查default命名空间 # 要忽略的命名空间(多个用逗号分隔) IGNORE_NAMESPACES="kube-system,kube-public" # 检查间隔(秒) CHECK_INTERVAL=300 # 日志文件路径 LOG_FILE="/mnt/logs/k8s-pod-monitor.log" # 集群名称 ClUSTER_NAME='机房测试环境k8s集群' ############################ 函数定义 ############################ # 初始化日志记录 init_log() { local log_dir=$(dirname "$LOG_FILE") mkdir -p "$log_dir" echo "$(date '+%Y-%m-%d %H:%M:%S') - 初始化K8s Pod监控脚本" >> "$LOG_FILE" } # 记录日志 log() { echo "$(date '+%Y-%m-%d %H:%M:%S') - $1" >> "$LOG_FILE" } # 发送钉钉告警 send_dingding_alert() { local alert_message="$1" local pod_info="$2" # 构建钉钉消息格式 [11](@ref) local dingding_msg=$(cat << EOF { "msgtype": "markdown", "markdown": { "title": "K8S Pod状态告警", "text": "## ${DINGDING_KEYWORDS} ⚠️\n**告警时间:** $(date '+%Y-%m-%d %H:%M:%S')\n**告警详情:**\n\`\`\`json\n${alert_message}\n\`\`\`\n**异常Pod信息:**\n\`\`\`\n${pod_info}\n\`\`\`\n---\n> 请及时处理" }, "at": { "isAtAll": false } } EOF ) # 发送请求 [10,11](@ref) local response=$(curl -s -H "Content-Type: application/json" \ -d "$dingding_msg" \ "$DINGDING_WEBHOOK") if echo "$response" | grep -q '"errcode":0'; then log "钉钉告警发送成功" return 0 else log "钉钉告警发送失败: $response" return 1 fi } # 检查kubectl配置 check_kubectl_config() { if ! command -v /usr/local/bin/kubectl &> /dev/null; then log "错误: kubectl 未找到,请确保已安装并配置" exit 1 fi if ! /usr/local/bin/kubectl cluster-info &> /dev/null; then log "错误: 无法连接Kubernetes集群,请检查kubectl配置" exit 1 fi log "kubectl配置检查通过" } # 检查Pod状态 check_pod_status() { local abnormal_pods="" local pod_count=0 log "开始检查Pod状态..." # 获取Pod状态信息 [1,2](@ref) while IFS= read -r line; do if [ -n "$line" ]; then local namespace=$(echo "$line" | awk '{print $1}') local pod_name=$(echo "$line" | awk '{print $2}') local status=$(echo "$line" | awk '{print $4}') local restarts=$(echo "$line" | awk '{print $5}') local age=$(echo "$line" | awk '{print $6}') # 检查是否在忽略的命名空间中 if echo ",${IGNORE_NAMESPACES}," | grep -q ",${namespace},"; then continue fi # 检查Pod状态 #if [ "$status" != "Running" ]; then if [ "$status" != "Running" ] && [ "$status" != "Completed" ] ; then abnormal_pods="${abnormal_pods}命名空间: $namespace | Pod: $pod_name | 状态: $status | 重启次数: $restarts | 运行时间: $age\n" pod_count=$((pod_count + 1)) # 获取详细事件信息用于告警 local events=$(/usr/local/bin/kubectl get events -n "$namespace" --field-selector involvedObject.name="$pod_name" --sort-by='.lastTimestamp' 2>/dev/null | tail -5) #abnormal_pods="${abnormal_pods}最近事件:\n$events\n----------------------------------------\n" fi fi done <<< "$(/usr/local/bin/kubectl get pods $NAMESPACE_FILTER --no-headers 2>/dev/null)" if [ $pod_count -gt 0 ]; then local alert_msg="${ClUSTER_NAME}发现 $pod_count 个Pod状态异常" log "$alert_msg" # 发送钉钉告警 send_dingding_alert "$alert_msg" "$abnormal_pods" else log "所有Pod状态正常" fi } # 检查Metrics Server是否可用(可选检查) check_metrics_server() { if kubectl top nodes &> /dev/null; then log "Metrics Server可用,可以监控资源使用情况" return 0 else log "Metrics Server不可用,跳过资源监控" return 1 fi } ############################ 主程序 ############################ main() { # 初始化 init_log log "=== K8s Pod监控脚本启动 ===" # 检查配置 check_kubectl_config #check_metrics_server # 验证钉钉webhook配置 if [ -z "$DINGDING_WEBHOOK" ] || [ "$DINGDING_WEBHOOK" = "https://oapi.dingtalk.com/robot/send?access_token=YOUR_ACCESS_TOKEN" ]; then log "错误: 请先配置钉钉机器人webhook地址" exit 1 fi log "监控程序启动,检查间隔: ${CHECK_INTERVAL}秒" # 主循环 # while true; do # log "开始新一轮检查..." check_pod_status # log "本轮检查完成,等待${CHECK_INTERVAL}秒后继续..." # sleep $CHECK_INTERVAL #done } # 信号处理,优雅退出 trap "log '监控脚本被用户中断'; exit 0" INT TERM # 脚本入口 if [ "$1" = "test" ]; then # 测试模式:只运行一次检查 log "=== 测试模式启动 ===" check_kubectl_config check_pod_status log "=== 测试模式结束 ===" else # 正常模式:持续监控 main fi

3. 配置定时任务

根据需求,通过/etc/crontab或crontab -e设置定时任务。脚本中以下几行需注释

# 主循环 # while true; do # log "开始新一轮检查..." check_pod_status # log "本轮检查完成,等待${CHECK_INTERVAL}秒后继续..." # sleep $CHECK_INTERVAL #done

若不注释上述几行,可以使用nohup k8s_pod_status_monitor.sh & 执行一次脚本即可。

4. 备注

kubectl尽量使用绝对路径(本文/usr/local/bin/kubectl),避免设置定时任务,执行shell脚本报错。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/24 6:21:28

Halcon条码技术详解(含 Halcon 应用示例)

条码技术详解&#xff08;含 Halcon 应用示例&#xff09; 一、一维码&#xff08;线性条码&#xff09; 1. 定义 一维码是由规则排列的条&#xff08;低反射率部分&#xff09;和空&#xff08;高反射率部分&#xff09;组成的标记&#xff0c;通过条空组合表达信息&#x…

作者头像 李华
网站建设 2026/2/23 17:25:14

基于SpringBoot的计算思维与人工智能学习网站设计与实现_3270a91w

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作具体实现截图 本系统&#xff08;程序源码数据库调试部署讲解&#xff09;同时还支持java、ThinkPHP、Node.js、Spring B…

作者头像 李华
网站建设 2026/2/7 7:07:25

Labview实现四工位相机同时扫二维码、HTTP协议Mes上传及汇川PLC通讯协议

Labview四工位相机同时扫二维码HTTP协议Mes上传汇川PLC通讯协议最近在项目里搞了个超有意思的事儿&#xff0c;用Labview实现了四工位相机同时扫二维码&#xff0c;还结合了HTTP协议进行Mes上传以及汇川PLC通讯协议。这一套下来&#xff0c;整个生产流程都变得高效又智能啦&…

作者头像 李华
网站建设 2026/2/23 18:40:10

Miniconda环境导出与导入:实现团队协作无缝对接

Miniconda环境导出与导入&#xff1a;实现团队协作无缝对接 在人工智能项目开发中&#xff0c;最令人头疼的问题之一莫过于“在我机器上明明能跑”的尴尬局面。你辛辛苦苦调通的模型&#xff0c;在同事那里却因为某个包版本不兼容直接报错&#xff1b;新成员入职第一天&#xf…

作者头像 李华
网站建设 2026/2/23 22:58:43

计算机组成原理(20) 第五章 - 总线

一、 总线定义​​​​​二、总线特性三、总线分类3.1 串行总线和并行总线串行总线与并行总线是计算机系统中两种核心的数据传输总线架构&#xff0c;核心差异在于数据位的传输方式&#xff1a;串行总线逐位传输数据&#xff0c;并行总线多位同时传输数据。两者在传输速度、硬件…

作者头像 李华
网站建设 2026/2/18 2:18:56

【2025最新】网络安全从入门到精通(超详细)学习路线!

首先看一下学网络安全有什么好处&#xff1a; 1、可以学习计算机方面的知识 在正式学习网络安全之前是一定要学习计算机基础知识的。只要把网络安全认真的学透了&#xff0c;那么计算机基础知识是没有任何问题的&#xff0c;操作系统、网络架构、网站容器、数据库、前端后端等等…

作者头像 李华