Qwen-Image-2512-SDNQ Web服务稳定性保障：Supervisor自动重启+日志轮转-洪萨配资

Qwen-Image-2512-SDNQ Web服务稳定性保障：Supervisor自动重启+日志轮转

1. 为什么需要稳定性保障？

你可能已经试过——图片生成服务跑着跑着就卡住了，或者某次请求后进程直接消失了。用户刷新页面，只看到“连接被拒绝”；你SSH连上去查进程，发现app.py早就没了；再翻日志，满屏都是OOM（内存溢出）或CUDA out of memory的报错。这不是偶然，而是大模型Web服务在真实环境中的常态。

Qwen-Image-2512-SDNQ-uint4-svd-r32是个轻量但依然吃资源的图像生成模型，它在GPU上运行时对内存、显存、Python线程调度都相当敏感。一次异常中断、一个未捕获的异常、一次显存泄漏，都可能导致整个服务不可用。而手动重启？既不及时，也不可持续。

所以，我们不满足于“能跑起来”，更要做到“一直跑得稳”。本文不讲模型原理，不聊Prompt技巧，只聚焦一件事：如何让这个Web服务像自来水一样，7×24小时稳定输出，出问题自动恢复，日志不爆炸，运维不熬夜。

核心答案就两个词：Supervisor + 日志轮转。它们不是高大上的新概念，而是经过十年生产环境验证的“老司机组合”。接下来，我会带你从零配置，把这套机制真正落地到你的Qwen-Image服务中。

2. Supervisor：让服务永不掉线的守护者

2.1 Supervisor是什么？它解决什么问题？

Supervisor不是Docker，也不是systemd，它是一个用Python写的进程管理工具。它的核心使命就一个：监控你指定的程序，一旦它挂了，立刻拉起来；如果它没启动，主动帮它启动；还能统一管理日志、控制启停、查看状态。

对Qwen-Image这类Flask Web服务来说，Supervisor解决了三个致命痛点：

意外崩溃自动恢复：模型加载失败、CUDA错误、Python异常导致进程退出？Supervisor 3秒内检测到并重启。
开机自启无脑可靠：服务器重启后，服务自动跟着起来，不用你手动cd进目录再敲python app.py。
进程状态一目了然：一条命令就能看到服务是running、starting还是fatal，比ps aux | grep python直观十倍。

它不替代你的代码，而是给你的代码加一层“保险”。

2.2 配置Supervisor管理Qwen-Image服务

Supervisor本身需要安装（通常系统已预装，若无则apt install supervisor或pip install supervisor），但关键在于配置文件。我们为Qwen-Image专门写一份配置：

[program:qwen-image-sdnq-webui] command=python /root/Qwen-Image-2512-SDNQ-uint4-svd-r32/app.py directory=/root/Qwen-Image-2512-SDNQ-uint4-svd-r32 user=root autostart=true autorestart=true startretries=3 exitcodes=0,2 stopsignal=TERM stopwaitsecs=10 redirect_stderr=true stdout_logfile=/root/workspace/qwen-image-sdnq-webui.log stdout_logfile_maxbytes=50MB stdout_logfile_backups=5 environment=PYTHONUNBUFFERED="1",CUDA_VISIBLE_DEVICES="0"

这段配置里，每一行都有明确目的：

command：你要运行的命令，就是启动Web服务的那条。
directory：工作目录，确保app.py能找到模型路径和模板文件。
user=root：以root权限运行（因模型路径在/root下，且需访问GPU设备）。
autostart=true：Supervisor启动时，自动拉起这个服务。
autorestart=true：这是核心！只要进程退出，就重启。
startretries=3：启动失败最多重试3次，避免无限循环启动失败。
exitcodes=0,2：只有退出码为0（正常）或2（脚本错误）才认为是“预期退出”，其他都算崩溃。
stopsignal=TERM：优雅停止信号，给Flask机会处理完当前请求。
stopwaitsecs=10：发完TERM信号后，等10秒再强制kill，防止请求被粗暴中断。
redirect_stderr=true：把标准错误也重定向到日志，避免错误信息丢失。
stdout_logfile：日志文件路径，必须是绝对路径。
stdout_logfile_maxbytes=50MB：单个日志文件最大50MB，超了就轮转。
stdout_logfile_backups=5：最多保留5个历史日志文件（如.log.1,.log.2…）。
environment：设置环境变量，CUDA_VISIBLE_DEVICES="0"确保只用第一块GPU，避免多卡冲突。

重要提醒：LOCAL_PATH在app.py中必须设为绝对路径（如/root/ai-models/Disty0/Qwen-Image-2512-SDNQ-uint4-svd-r32），否则Supervisor在指定目录下启动时，相对路径会失效。

2.3 启动与日常管理

配置好后，把上面的内容保存为/etc/supervisor/conf.d/qwen-image-sdnq.conf，然后执行：

# 重新加载配置 sudo supervisorctl reread sudo supervisorctl update # 启动服务（如果还没启动） sudo supervisorctl start qwen-image-sdnq-webui # 查看状态 sudo supervisorctl status # 输出示例： # qwen-image-sdnq-webui RUNNING pid 12345, uptime 00:05:23 # 查看实时日志（按Ctrl+C退出） sudo supervisorctl tail -f qwen-image-sdnq-webui # 停止服务 sudo supervisorctl stop qwen-image-sdnq-webui

现在，你可以放心地kill -9你的app.py进程试试——几秒后，supervisorctl status就会显示它又回到了RUNNING状态。这就是“自动重启”的力量。

3. 日志轮转：不让日志撑爆磁盘

3.1 为什么日志轮转必不可少？

想象一下：服务跑了三天，每秒都有请求，每个请求都打印几行日志。一天下来，日志轻松破GB。磁盘空间告急，df -h显示/root/workspace只剩1%；tail -f卡顿；想查个昨天的错误，得用zgrep在一堆.log.gz里翻半天……这绝不是危言耸听，而是很多AI服务上线后的第一场“磁盘危机”。

Supervisor内置的日志轮转（stdout_logfile_maxbytes和stdout_logfile_backups）已经很好，但它只管主日志。而Qwen-Image服务本身，比如Flask的调试日志、模型加载的详细输出、甚至用户上传的临时文件路径，都可能散落在别处。我们需要一套更完整、更可控的日志策略。

3.2 使用logrotate实现专业级日志管理

logrotate是Linux发行版标配的日志轮转工具，比Supervisor自带的更强大、更灵活。我们为Qwen-Image单独配置一个规则：

创建/etc/logrotate.d/qwen-image-sdnq：

/root/workspace/qwen-image-sdnq-webui.log { daily missingok rotate 30 compress delaycompress notifempty create 644 root root sharedscripts postrotate /usr/bin/supervisorctl restart qwen-image-sdnq-webui > /dev/null 2>&1 || true endscript }

逐行解释：

/root/workspace/qwen-image-sdnq-webui.log：要轮转的日志文件路径。
daily：每天轮转一次（也可用weekly或size 100M）。
missingok：如果日志文件不存在，不报错。
rotate 30：最多保留30个归档日志（.log.1,.log.2….log.30）。
compress：轮转后用gzip压缩，节省90%空间。
delaycompress：本次轮转不压缩，下次才压缩（保证postrotate能读到最新日志）。
notifempty：日志为空时不轮转。
create 644 root root：轮转后新建日志文件，权限644，属主root。
sharedscripts：postrotate脚本只在整个组日志轮转完成后执行一次。
postrotate ... endscript：轮转完成后执行的命令。这里我们选择重启服务。为什么？因为Qwen-Image是单进程、单线程，重启后会重新打开日志文件，确保新日志写入qwen-image-sdnq-webui.log，而不是旧的.log.1。这是一个简单而有效的“日志清空”方案。

注意：postrotate里的supervisorctl restart命令，确保了日志句柄的正确切换。如果你的服务支持SIGUSR1重载日志（Flask原生不支持），也可以用信号方式，但重启是最通用可靠的。

3.3 验证与日常维护

配置完，立即测试：

# 手动触发一次轮转（模拟每日任务） sudo logrotate -f /etc/logrotate.d/qwen-image-sdnq # 查看效果 ls -lh /root/workspace/qwen-image-sdnq-webui.log* # 应该看到： # -rw-r--r-- 1 root root 12K Jan 25 10:00 qwen-image-sdnq-webui.log # -rw-r--r-- 1 root root 8.2M Jan 25 09:59 qwen-image-sdnq-webui.log.1.gz # 检查Supervisor状态，确认服务已重启 sudo supervisorctl status

从此，你的日志将自动按天归档、压缩、清理，磁盘空间再也不会被日志悄悄吃掉。

4. 进阶稳定性加固：不只是“重启”

Supervisor和logrotate解决了“挂了能起来”和“日志不爆炸”两大基础问题。但一个真正健壮的生产服务，还需要几道“安全阀”。

4.1 内存与显存监控：防患于未然

Qwen-Image最怕OOM。Supervisor能重启，但不能预防。我们加一个轻量级监控脚本，放在/root/Qwen-Image-2512-SDNQ-uint4-svd-r32/monitor.sh：

#!/bin/bash # 检查GPU显存使用率，超过90%则重启服务 GPU_MEM=$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits | head -1) GPU_TOTAL=$(nvidia-smi --query-gpu=memory.total --format=csv,noheader,nounits | head -1) USAGE_PCT=$((GPU_MEM * 100 / GPU_TOTAL)) if [ $USAGE_PCT -gt 90 ]; then echo "$(date): GPU memory usage $USAGE_PCT%, restarting service..." >> /root/workspace/monitor.log sudo supervisorctl restart qwen-image-sdnq-webui fi # 检查系统内存，剩余<1G则警告 FREE_MEM=$(free -m | awk 'NR==2{print $7}') if [ $FREE_MEM -lt 1024 ]; then echo "$(date): System free memory $FREE_MEM MB, low!" >> /root/workspace/monitor.log fi

然后加入crontab，每5分钟检查一次：

# 编辑crontab sudo crontab -e # 添加这一行 */5 * * * * /bin/bash /root/Qwen-Image-2512-SDNQ-uint4-svd-r32/monitor.sh

这相当于给服务装了一个“体温计”，发烧了就自动降温（重启）。

4.2 健康检查端点：让外部系统知道你“活着”

你的服务有个GET /api/health端点，返回{"status": "ok"}。这不仅是给开发者看的，更是给负载均衡器、云平台健康检查、甚至你的手机推送通知用的。

Supervisor本身不提供HTTP健康检查，但我们可以用一个简单的curl脚本，配合systemd或cron来实现：

# /root/Qwen-Image-2512-SDNQ-uint4-svd-r32/health-check.sh #!/bin/bash if ! curl -sf http://127.0.0.1:7860/api/health >/dev/null; then echo "$(date): Health check failed, restarting service..." >> /root/workspace/health.log sudo supervisorctl restart qwen-image-sdnq-webui fi

同样，加入crontab每30秒检查一次（注意频率，别太猛）：

# 每30秒执行一次（需用systemd timer或第三方工具，cron最小粒度是1分钟） # 这里用1分钟示例 * * * * * /bin/bash /root/Qwen-Image-2512-SDNQ-uint4-svd-r32/health-check.sh

这样，即使Supervisor认为进程在running，但服务内部卡死（比如死锁在某个线程），健康检查也能把它揪出来。

4.3 并发请求的优雅排队：从“崩溃”到“等待”

Qwen-Image用了线程锁（threading.Lock）来防止并发请求冲突，这是对的。但它的表现是：第二个请求会阻塞等待，直到第一个完成。如果第一个请求因模型推理慢（比如120秒），第二个用户就要等2分钟，体验极差，还可能触发浏览器超时。

更好的做法是：在Web层做请求队列和超时控制。我们可以在app.py的/api/generate路由里加几行：

from flask import request, jsonify, send_file import time from threading import Lock # 全局锁，确保同一时间只有一个生成任务 generate_lock = Lock() GENERATE_TIMEOUT = 180 # 3分钟超时 @app.route('/api/generate', methods=['POST']) def api_generate(): start_time = time.time() # 尝试获取锁，最多等10秒，避免用户无限等待 if not generate_lock.acquire(timeout=10): return jsonify({"error": "Service busy, please try again later"}), 503 try: # ... 原有生成逻辑 ... # 如果生成耗时超过180秒，主动抛出异常 if time.time() - start_time > GENERATE_TIMEOUT: raise TimeoutError("Generation timeout") # 返回图片 return send_file(...) except Exception as e: # 记录错误日志 app.logger.error(f"Generation error: {str(e)}") return jsonify({"error": str(e)}), 500 finally: generate_lock.release()

这小小的改动，把“服务崩溃”变成了“用户友好提示”，用户体验和系统稳定性双双提升。