1. 监控需求
检测k8s集群中异常状态的pod容器,并通过钉钉告警推送提醒,通过Shell脚本实现。
2. 完整脚本
cat k8s_pod_status_monitor.sh
#!/bin/bash # K8s Pod状态监控钉钉告警脚本 # 作者:LMZF # 日期:2025-12-15 ############################ 配置区域 ############################ # 钉钉机器人webhook地址(必填) DINGDING_WEBHOOK="https://oapi.dingtalk.com/robot/send?access_token=c8452b88888888888888888888888888888888888888888888888888" # 钉钉消息中需要包含的关键词(用于安全校验) DINGDING_KEYWORDS="告警" # 可选的命名空间过滤(默认检查所有命名空间) NAMESPACE_FILTER="--all-namespaces" # NAMESPACE_FILTER="-n default" # 只检查default命名空间 # 要忽略的命名空间(多个用逗号分隔) IGNORE_NAMESPACES="kube-system,kube-public" # 检查间隔(秒) CHECK_INTERVAL=300 # 日志文件路径 LOG_FILE="/mnt/logs/k8s-pod-monitor.log" # 集群名称 ClUSTER_NAME='机房测试环境k8s集群' ############################ 函数定义 ############################ # 初始化日志记录 init_log() { local log_dir=$(dirname "$LOG_FILE") mkdir -p "$log_dir" echo "$(date '+%Y-%m-%d %H:%M:%S') - 初始化K8s Pod监控脚本" >> "$LOG_FILE" } # 记录日志 log() { echo "$(date '+%Y-%m-%d %H:%M:%S') - $1" >> "$LOG_FILE" } # 发送钉钉告警 send_dingding_alert() { local alert_message="$1" local pod_info="$2" # 构建钉钉消息格式 [11](@ref) local dingding_msg=$(cat << EOF { "msgtype": "markdown", "markdown": { "title": "K8S Pod状态告警", "text": "## ${DINGDING_KEYWORDS} ⚠️\n**告警时间:** $(date '+%Y-%m-%d %H:%M:%S')\n**告警详情:**\n\`\`\`json\n${alert_message}\n\`\`\`\n**异常Pod信息:**\n\`\`\`\n${pod_info}\n\`\`\`\n---\n> 请及时处理" }, "at": { "isAtAll": false } } EOF ) # 发送请求 [10,11](@ref) local response=$(curl -s -H "Content-Type: application/json" \ -d "$dingding_msg" \ "$DINGDING_WEBHOOK") if echo "$response" | grep -q '"errcode":0'; then log "钉钉告警发送成功" return 0 else log "钉钉告警发送失败: $response" return 1 fi } # 检查kubectl配置 check_kubectl_config() { if ! command -v /usr/local/bin/kubectl &> /dev/null; then log "错误: kubectl 未找到,请确保已安装并配置" exit 1 fi if ! /usr/local/bin/kubectl cluster-info &> /dev/null; then log "错误: 无法连接Kubernetes集群,请检查kubectl配置" exit 1 fi log "kubectl配置检查通过" } # 检查Pod状态 check_pod_status() { local abnormal_pods="" local pod_count=0 log "开始检查Pod状态..." # 获取Pod状态信息 [1,2](@ref) while IFS= read -r line; do if [ -n "$line" ]; then local namespace=$(echo "$line" | awk '{print $1}') local pod_name=$(echo "$line" | awk '{print $2}') local status=$(echo "$line" | awk '{print $4}') local restarts=$(echo "$line" | awk '{print $5}') local age=$(echo "$line" | awk '{print $6}') # 检查是否在忽略的命名空间中 if echo ",${IGNORE_NAMESPACES}," | grep -q ",${namespace},"; then continue fi # 检查Pod状态 #if [ "$status" != "Running" ]; then if [ "$status" != "Running" ] && [ "$status" != "Completed" ] ; then abnormal_pods="${abnormal_pods}命名空间: $namespace | Pod: $pod_name | 状态: $status | 重启次数: $restarts | 运行时间: $age\n" pod_count=$((pod_count + 1)) # 获取详细事件信息用于告警 local events=$(/usr/local/bin/kubectl get events -n "$namespace" --field-selector involvedObject.name="$pod_name" --sort-by='.lastTimestamp' 2>/dev/null | tail -5) #abnormal_pods="${abnormal_pods}最近事件:\n$events\n----------------------------------------\n" fi fi done <<< "$(/usr/local/bin/kubectl get pods $NAMESPACE_FILTER --no-headers 2>/dev/null)" if [ $pod_count -gt 0 ]; then local alert_msg="${ClUSTER_NAME}发现 $pod_count 个Pod状态异常" log "$alert_msg" # 发送钉钉告警 send_dingding_alert "$alert_msg" "$abnormal_pods" else log "所有Pod状态正常" fi } # 检查Metrics Server是否可用(可选检查) check_metrics_server() { if kubectl top nodes &> /dev/null; then log "Metrics Server可用,可以监控资源使用情况" return 0 else log "Metrics Server不可用,跳过资源监控" return 1 fi } ############################ 主程序 ############################ main() { # 初始化 init_log log "=== K8s Pod监控脚本启动 ===" # 检查配置 check_kubectl_config #check_metrics_server # 验证钉钉webhook配置 if [ -z "$DINGDING_WEBHOOK" ] || [ "$DINGDING_WEBHOOK" = "https://oapi.dingtalk.com/robot/send?access_token=YOUR_ACCESS_TOKEN" ]; then log "错误: 请先配置钉钉机器人webhook地址" exit 1 fi log "监控程序启动,检查间隔: ${CHECK_INTERVAL}秒" # 主循环 # while true; do # log "开始新一轮检查..." check_pod_status # log "本轮检查完成,等待${CHECK_INTERVAL}秒后继续..." # sleep $CHECK_INTERVAL #done } # 信号处理,优雅退出 trap "log '监控脚本被用户中断'; exit 0" INT TERM # 脚本入口 if [ "$1" = "test" ]; then # 测试模式:只运行一次检查 log "=== 测试模式启动 ===" check_kubectl_config check_pod_status log "=== 测试模式结束 ===" else # 正常模式:持续监控 main fi3. 配置定时任务
根据需求,通过/etc/crontab或crontab -e设置定时任务。脚本中以下几行需注释
# 主循环 # while true; do # log "开始新一轮检查..." check_pod_status # log "本轮检查完成,等待${CHECK_INTERVAL}秒后继续..." # sleep $CHECK_INTERVAL #done若不注释上述几行,可以使用nohup k8s_pod_status_monitor.sh & 执行一次脚本即可。
4. 备注
kubectl尽量使用绝对路径(本文/usr/local/bin/kubectl),避免设置定时任务,执行shell脚本报错。