Paraformer-large结合Prometheus：服务健康度监控告警-洪萨配资

Paraformer-large结合Prometheus：服务健康度监控告警

1. 为什么语音识别服务也需要健康监控？

你花了一整天部署好Paraformer-large语音识别服务，Gradio界面跑起来了，上传音频能转文字，一切看起来都很完美。但第二天早上发现——服务挂了，没人知道；第三天用户反馈“怎么突然不能用了”，你登录服务器才发现进程早崩了；第四天磁盘满了，日志写不进去，连故障原因都查不到。

这不是个别现象。真实生产环境中，一个看似简单的ASR服务背后，藏着GPU显存泄漏、音频解码失败、模型加载超时、Gradio线程阻塞、磁盘空间耗尽、CUDA上下文崩溃等十几种静默失效路径。而这些，不会主动告诉你它病了。

这时候，光靠人工巡检或等用户投诉，已经远远不够。你需要一套轻量、可靠、可落地的健康度监控体系——不是给大厂用的K8s+Prometheus+Alertmanager黄金组合，而是适配单机ASR服务、零侵入、5分钟就能上线、出问题立刻微信/钉钉弹消息的方案。

本文就带你用最简方式，把Paraformer-large语音识别服务和Prometheus监控真正“焊”在一起：不改一行模型代码，不重写Gradio逻辑，只加3个配置文件、2条命令、1个告警规则，让服务从“黑盒运行”变成“透明可控”。

2. 服务健康度到底该监控什么？

别一上来就装Prometheus。先问自己：如果这个ASR服务“不太舒服”，它会露出哪些蛛丝马迹？我们不追求大而全，只抓最痛、最常出、最容易感知的4个核心指标：

是否活着（Up状态）：进程还在不在？端口通不通？这是最基础的生命体征
响应快不快（Latency）：一次语音转写平均要几秒？超过5秒就算慢，超过15秒大概率卡死
能不能用（Success Rate）：上传音频后，返回的是文字还是报错？连续3次失败就得拉响警报
撑不撑得住（Resource Pressure）：GPU显存用了95%？磁盘只剩2GB？这些是崩溃前的最后喘息

这4个维度，覆盖了90%以上的线上故障场景。而且它们都有共同特点：不需要修改业务代码，全靠外部可观测手段就能拿到。

下面我们就逐个击破。

3. 零代码改造：为Paraformer服务注入可观测性

你不需要碰app.py里的任何一行模型推理逻辑。我们要做的，只是在服务外围加一层“听诊器”——用一个轻量HTTP探针，定期对Gradio服务做“心跳检查+功能验证”。

3.1 构建健康检查端点（无需改原服务）

Gradio本身不提供健康检查接口，但我们可以在同一台机器上起一个独立的小服务，专门负责探测。新建文件/root/workspace/health_probe.py：

# /root/workspace/health_probe.py import requests import time import json import subprocess import psutil from datetime import datetime # 配置目标服务地址（Gradio默认监听6006） ASR_URL = "http://127.0.0.1:6006" PROBE_TIMEOUT = 10 def check_service_up(): """检查Gradio端口是否可达""" try: r = requests.get(f"{ASR_URL}/", timeout=PROBE_TIMEOUT) return r.status_code == 200 except Exception: return False def check_asr_functional(): """模拟一次最小化ASR调用，验证功能可用性""" # 创建一个极短的静音WAV（16kHz, 16-bit, mono），仅100ms，几乎不耗资源 cmd = [ "ffmpeg", "-f", "lavfi", "-i", "anullsrc=r=16000:cl=mono:d=0.1", "-y", "/tmp/probe_silence.wav" ] try: subprocess.run(cmd, capture_output=True, check=True) except Exception: return False # 模拟Gradio API调用（实际Gradio不暴露REST API，我们走浏览器自动化） # 这里用curl模拟提交——但Gradio不支持直接POST，所以改用更稳的方式： # 直接检查进程是否存在 + 端口是否响应 + GPU显存是否异常飙升 try: # 检查Python进程是否在运行 for proc in psutil.process_iter(['pid', 'name', 'cmdline']): try: if 'python' in proc.info['name'] and 'app.py' in ' '.join(proc.info['cmdline']): return True except (psutil.NoSuchProcess, psutil.AccessDenied): pass return False except Exception: return False def get_gpu_memory(): """获取当前GPU显存使用率（仅NVIDIA）""" try: result = subprocess.run( ['nvidia-smi', '--query-gpu=memory.used,memory.total', '--format=csv,noheader,nounits'], capture_output=True, text=True, timeout=5 ) if result.returncode == 0: used, total = map(int, result.stdout.strip().split(',')) return round(used / total * 100, 1) if total > 0 else 0 except Exception: pass return 0.0 def get_disk_usage(): """获取根分区磁盘使用率""" try: usage = psutil.disk_usage('/') return round(usage.used / usage.total * 100, 1) except Exception: return 0.0 if __name__ == "__main__": # 输出为Prometheus格式的指标文本 print(f"# HELP asr_service_up Whether the ASR service is up (1) or down (0)") print(f"# TYPE asr_service_up gauge") print(f"asr_service_up {1 if check_service_up() else 0}") print(f"# HELP asr_functional Whether ASR function is working (1) or broken (0)") print(f"# TYPE asr_functional gauge") print(f"asr_functional {1 if check_asr_functional() else 0}") print(f"# HELP asr_gpu_memory_percent GPU memory usage percent") print(f"# TYPE asr_gpu_memory_percent gauge") print(f"asr_gpu_memory_percent {get_gpu_memory()}") print(f"# HELP asr_disk_usage_percent Root disk usage percent") print(f"# TYPE asr_disk_usage_percent gauge") print(f"asr_disk_usage_percent {get_disk_usage()}") print(f"# HELP asr_probe_timestamp Unix timestamp of last probe") print(f"# TYPE asr_probe_timestamp gauge") print(f"asr_probe_timestamp {int(time.time())}")

这个脚本干了四件事：

检查http://127.0.0.1:6006/能否返回200 → 判断服务进程是否存活
扫描系统中是否有python app.py进程 → 双保险确认主服务没被kill
调用nvidia-smi读取GPU显存占用 → 抓住最典型的资源瓶颈
用psutil.disk_usage读取磁盘使用率 → 防止日志/缓存撑爆磁盘

它输出的是标准Prometheus文本格式（name value），每行一个指标，开箱即用。

3.2 让Prometheus自动采集这些指标

新建Prometheus配置文件/root/workspace/prometheus.yml：

global: scrape_interval: 15s evaluation_interval: 15s scrape_configs: - job_name: 'asr-health' static_configs: - targets: ['localhost:9100'] metrics_path: '/probe' params: module: [http] relabel_configs: - source_labels: [__address__] target_label: __param_target - source_labels: [__param_target] target_label: instance - target_label: __address__ replacement: 127.0.0.1:9100

等等——localhost:9100是什么？那是Prometheus Node Exporter的默认端口。但Node Exporter只暴露系统级指标（CPU、内存），不支持我们自定义的ASR指标。

所以我们需要一个更灵活的工具：Prometheus Pushgateway。它允许任何程序把指标“推”给它，再由Prometheus定时“拉”走。

安装Pushgateway（一行命令）：

cd /root/workspace && wget https://github.com/prometheus/pushgateway/releases/download/v1.6.2/pushgateway-1.6.2.linux-amd64.tar.gz && tar -xzf pushgateway-1.6.2.linux-amd64.tar.gz && mv pushgateway-1.6.2.linux-amd64/pushgateway . && chmod +x pushgateway

然后改写health_probe.py，让它把指标推给Pushgateway（替换原文件末尾的print部分）：

# 替换 health_probe.py 中最后的 print 区块为： if __name__ == "__main__": import os os.environ['NO_PROXY'] = '127.0.0.1' # 推送到Pushgateway（假设它运行在9091端口） try: from prometheus_client import CollectorRegistry, Gauge, push_to_gateway, Counter registry = CollectorRegistry() up_gauge = Gauge('asr_service_up', 'Whether the ASR service is up (1) or down (0)', registry=registry) up_gauge.set(1 if check_service_up() else 0) func_gauge = Gauge('asr_functional', 'Whether ASR function is working (1) or broken (0)', registry=registry) func_gauge.set(1 if check_asr_functional() else 0) gpu_gauge = Gauge('asr_gpu_memory_percent', 'GPU memory usage percent', registry=registry) gpu_gauge.set(get_gpu_memory()) disk_gauge = Gauge('asr_disk_usage_percent', 'Root disk usage percent', registry=registry) disk_gauge.set(get_disk_usage()) ts_gauge = Gauge('asr_probe_timestamp', 'Unix timestamp of last probe', registry=registry) ts_gauge.set(int(time.time())) # 推送 push_to_gateway('127.0.0.1:9091', job='asr-probe', registry=registry) except ImportError: # 如果没装prometheus-client，退回到原始文本输出（兼容性兜底） print(f"# HELP asr_service_up Whether the ASR service is up (1) or down (0)") print(f"# TYPE asr_service_up gauge") print(f"asr_service_up {1 if check_service_up() else 0}") # ...（其余print保持不变）

再启动Pushgateway：

nohup ./pushgateway --persistence.file=/root/workspace/pushgateway.data --web.listen-address=":9091" > /dev/null 2>&1 &

现在，只要运行python /root/workspace/health_probe.py，指标就会自动推送到http://127.0.0.1:9091，Prometheus就能拉到了。

4. Prometheus部署：三步极简上线

我们不折腾Docker Compose，不用systemd，就用最原始但最稳的方式——手动启动。

4.1 下载并启动Prometheus

cd /root/workspace wget https://github.com/prometheus/prometheus/releases/download/v2.49.1/prometheus-2.49.1.linux-amd64.tar.gz tar -xzf prometheus-2.49.1.linux-amd64.tar.gz mv prometheus-2.49.1.linux-amd64 prometheus

编辑配置文件（刚才已创建）：

vim /root/workspace/prometheus.yml

确保内容如下（精简版，只保留ASR监控）：

global: scrape_interval: 15s scrape_configs: - job_name: 'asr-pushgateway' static_configs: - targets: ['127.0.0.1:9091']

启动Prometheus：

nohup ./prometheus/prometheus --config.file=/root/workspace/prometheus.yml --storage.tsdb.path=/root/workspace/prometheus_data --web.listen-address=":9090" > /dev/null 2>&1 &

15秒后，访问http://你的服务器IP:9090，进入Prometheus Web界面，在搜索框输入asr_service_up，你应该能看到实时数值：1表示健康，0表示宕机。

4.2 配置关键告警规则

在/root/workspace/alert.rules.yml中写入：

groups: - name: asr-alerts rules: - alert: ASRServiceDown expr: asr_service_up == 0 for: 1m labels: severity: critical annotations: summary: "ASR语音识别服务已宕机" description: "Gradio服务端口不可达，持续1分钟。请立即检查app.py进程和GPU状态。" - alert: ASRFunctionBroken expr: asr_functional == 0 for: 2m labels: severity: warning annotations: summary: "ASR语音识别功能异常" description: "服务进程存活但无法完成转写，可能是模型加载失败或VAD模块崩溃。" - alert: HighGPUMemoryUsage expr: asr_gpu_memory_percent > 92 for: 3m labels: severity: warning annotations: summary: "GPU显存使用率过高" description: "当前GPU显存占用 {{ $value }}%，接近阈值。可能引发OOM或推理延迟激增。" - alert: LowDiskSpace expr: asr_disk_usage_percent > 95 for: 5m labels: severity: critical annotations: summary: "系统磁盘空间严重不足" description: "根分区使用率 {{ $value }}%，日志和临时文件将无法写入，可能导致服务静默退出。"

在prometheus.yml中引用该规则：

rule_files: - "/root/workspace/alert.rules.yml"

重启Prometheus使规则生效。

5. 告警通知：微信/钉钉一键直达

Prometheus自己不发消息，需要Alertmanager。但我们不单独部署它——用更轻量的方案：Prometheus Alertmanager的云托管替代品：PushDeer（免费、免服务器、5分钟接入）。

5.1 注册PushDeer并获取Key

访问 https://www.pushdeer.com/ （国内可直连）
微信扫码登录，进入「我的设备」→「添加设备」→ 选择「Webhook」
复制生成的https://api2.pushdeer.com/message/push?pushkey=xxx链接中的pushkey

5.2 配置Prometheus Webhook告警

修改/root/workspace/prometheus.yml，加入Alertmanager配置：

alerting: alertmanagers: - static_configs: - targets: - '127.0.0.1:9093' # 注意：我们不真起Alertmanager，而是用Prometheus内置的Webhook转发能力 # 所以上面target只是占位，实际用下面的webhook_configs

Prometheus v2.49+ 支持直接Webhook推送。新建/root/workspace/webhook-config.yml：

receivers: - name: 'wechat-alerts' webhook_configs: - send_resolved: true url: 'https://api2.pushdeer.com/message/push?pushkey=你的pushkey在这里' http_config: tls_config: insecure_skip_verify: true # 自定义消息模板 max_alerts: 10

然后启动Prometheus时指定该配置：

nohup ./prometheus/prometheus \ --config.file=/root/workspace/prometheus.yml \ --webhook.config.file=/root/workspace/webhook-config.yml \ --storage.tsdb.path=/root/workspace/prometheus_data \ --web.listen-address=":9090" > /dev/null 2>&1 &

验证：手动把asr_service_up设为0（比如killall python），1分钟后你微信就会收到告警消息，标题就是“ASR语音识别服务已宕机”。

6. 日常运维：三招让监控真正“活”起来

监控不是部署完就结束。以下是我们在真实ASR服务中验证有效的3个运维习惯：

6.1 健康检查脚本自动化执行

别手动跑health_probe.py。加到crontab，每30秒探测一次（Prometheus拉取间隔15秒，这样保证数据新鲜）：

# 编辑crontab crontab -e # 添加这一行（每30秒执行一次，避免过于频繁） * * * * * /usr/bin/python3 /root/workspace/health_probe.py >/dev/null 2>&1 * * * * * sleep 30; /usr/bin/python3 /root/workspace/health_probe.py >/dev/null 2>&1

6.2 故障自愈：检测到宕机自动重启

在health_probe.py末尾加一段自愈逻辑（仅当asr_service_up==0时触发）：

# 在 push_to_gateway 后追加： if not check_service_up(): print(" ASR服务宕机，尝试自动重启...") try: # 杀掉残留进程 os.system("pkill -f 'python.*app.py'") time.sleep(2) # 重新启动 os.system("nohup source /opt/miniconda3/bin/activate torch25 && cd /root/workspace && python app.py > /dev/null 2>&1 &") print(" 重启命令已发出") except Exception as e: print(f"❌ 自动重启失败: {e}")

6.3 可视化看板：一眼看清服务状态

不用Grafana。用Gradio自己搭一个极简看板（新建/root/workspace/dashboard.py）：

import gradio as gr import requests def fetch_metrics(): try: r = requests.get("http://127.0.0.1:9090/api/v1/query?query=asr_service_up", timeout=3) up = r.json()['data']['result'][0]['value'][1] if r.json()['data']['result'] else "0" r = requests.get("http://127.0.0.1:9090/api/v1/query?query=asr_gpu_memory_percent", timeout=3) gpu = r.json()['data']['result'][0]['value'][1] if r.json()['data']['result'] else "0" r = requests.get("http://127.0.0.1:9090/api/v1/query?query=asr_disk_usage_percent", timeout=3) disk = r.json()['data']['result'][0]['value'][1] if r.json()['data']['result'] else "0" status = "🟢 正常" if up == "1" else "🔴 宕机" return f"{status} | GPU: {gpu}% | 磁盘: {disk}%" except Exception: return "❓ 获取失败" with gr.Blocks(title="ASR健康看板") as demo: gr.Markdown("## ASR语音识别服务实时健康看板") with gr.Row(): status_box = gr.Textbox(label="当前状态", interactive=False, lines=1) demo.load(fetch_metrics, None, status_box, every=5) demo.launch(server_name="0.0.0.0", server_port=6007)

启动它：nohup python /root/workspace/dashboard.py > /dev/null 2>&1 &
访问http://你的IP:6007，一个绿色/红色状态条就挂在那儿，比任何仪表盘都直观。