手把手教你写个Shell脚本：自动监控GPU使用率并生成日报（附赠防进程残留技巧）-洪萨配资

智能GPU监控系统：从实时数据采集到自动化日报生成实战指南

在深度学习模型训练和推理任务中，GPU资源的高效利用直接关系到项目成本和实验效率。许多开发者都曾经历过这样的场景：当你在服务器上启动一个耗时数天的训练任务后，不得不频繁登录服务器手动执行nvidia-smi命令来检查GPU使用情况，或者为了获取连续监控数据而让终端长时间开着，最终却因为网络波动导致SSH断开，监控进程成为"僵尸"残留在系统中。更麻烦的是，这些分散的监控数据难以系统分析，无法形成有效的资源利用率报告。

1. 监控系统架构设计

一个完整的GPU监控系统需要包含四个核心模块：数据采集层负责获取原始GPU指标；数据处理层实现数据清洗和格式转换；存储层管理监控数据的持久化；可视化层生成直观的资源报告。我们将使用Shell脚本作为粘合剂，串联起这些功能模块。

关键指标采集策略需要平衡数据精度和系统开销：

基础指标：GPU利用率、显存占用、温度、功耗
进程级指标：各任务显存分配、计算类型（C/G进程）
采样频率：训练任务建议1-5秒，推理任务可放宽至10-30秒

#!/bin/bash # 基础监控命令模板 nvidia-smi \ --query-gpu=timestamp,name,index,utilization.gpu,memory.total,memory.used,power.draw \ --format=csv,noheader,nounits \ -l 1

2. 健壮性监控脚本开发

原始的手动监控方式存在三个主要痛点：进程管理不可靠（监控进程可能残留）、数据分散难分析（多个CSV文件）、缺乏自动化报警（异常无法及时发现）。下面的脚本解决了这些问题：

#!/bin/bash # gpu_monitor.sh - 带自动清理功能的监控脚本 MONITOR_PID="" DATA_FILE="gpu_metrics_$(date +%Y%m%d_%H%M%S).csv" DURATION=3600 # 默认监控1小时 cleanup() { echo "[$(date)] 清理监控进程..." kill -9 "$MONITOR_PID" 2>/dev/null rm -f "$DATA_FILE.tmp" exit 0 } trap cleanup EXIT TERM INT nvidia-smi \ --query-gpu=timestamp,name,index,utilization.gpu,memory.total,memory.used,power.draw \ --format=csv \ -l 1 > "$DATA_FILE.tmp" & MONITOR_PID=$! echo "监控进程PID: $MONITOR_PID" echo "数据将保存到: $DATA_FILE" sleep "$DURATION" mv "$DATA_FILE.tmp" "$DATA_FILE"

关键改进点：

使用trap命令注册信号处理函数，确保脚本退出时清理监控进程
临时文件处理机制，避免数据不完整
支持通过参数自定义监控时长和输出路径

3. 数据可视化与日报生成

原始CSV数据需要经过处理才能转化为直观见解。Python的pandas+matplotlib组合非常适合这个任务：

# analyze_gpu.py import pandas as pd import matplotlib.pyplot as plt def generate_report(csv_file): df = pd.read_csv(csv_file, parse_dates=['timestamp']) # 数据清洗 df = df.dropna() df['gpu_util'] = df['utilization.gpu [%]'].astype(float) df['mem_util'] = df['memory.used [MiB]'] / df['memory.total [MiB]'] * 100 # 生成图表 fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8)) df.plot(x='timestamp', y='gpu_util', ax=ax1, title='GPU利用率') df.plot(x='timestamp', y='mem_util', ax=ax2, title='显存占用率') plt.tight_layout() plt.savefig('gpu_report.png')

日报内容建议包含：

资源利用率时序曲线
峰值/均值/低谷统计表
异常时间点标记
各GPU负载均衡情况

指标	最大值	平均值	最小值	达标率
GPU利用率	98%	65%	12%	82%
显存占用	24GB	18GB	2GB	100%
温度	76°C	68°C	42°C	安全

4. 高级功能扩展

基础监控满足后，可进一步实现这些增强功能：

异常检测与报警

# 在监控循环中添加异常检测 while read -r line; do temp=$(echo "$line" | awk '{print $4}') if (( temp > 85 )); then send_alert "GPU温度过高: ${temp}°C" fi done < <(nvidia-smi --query-gpu=temperature.gpu --format=csv,noheader,nounits -l 1)

多节点集中监控架构

每个节点运行本地采集服务
通过rsync定期同步数据到中心服务器
中心节点统一生成聚合报告

资源使用优化建议：

当GPU利用率持续低于40%时，考虑减小batch size
显存占用超过90%时，检查是否有内存泄漏
频繁出现温度告警则需要改善散热条件

5. 生产环境部署方案

对于长期运行的监控系统，建议采用以下架构：

组件清单：

systemd服务单元：管理监控进程生命周期
logrotate配置：自动轮转日志文件
监控数据归档策略：
- 原始数据保留7天
- 日报数据保留30天
- 月汇总报告永久保存

部署示例：

# /etc/systemd/system/gpu-monitor.service [Unit] Description=GPU Monitoring Service [Service] ExecStart=/opt/gpu-monitor/start_monitor.sh ExecStop=/opt/gpu-monitor/stop_monitor.sh Restart=always [Install] WantedBy=multi-user.target

实际部署后发现，配合Prometheus+Grafana的方案可以获得更好的实时监控体验，但Shell脚本方案在资源受限的环境中仍然具有不可替代的优势——它只需要最基本的系统组件就能运行，且维护成本极低。