Qwen3.5-4B-AWQ轻量部署教程:3GB显存跑通多模态+工具调用全链路
1. 模型概述
Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型,经过4bit AWQ量化后显存占用仅约3GB,可在RTX 3060/4060等消费级显卡上流畅运行。该模型在保持轻量化的同时,具备以下核心能力:
- 多模态支持:原生支持图文理解与生成
- 工具调用:完整Agent能力支持
- 语言覆盖:支持201种语言处理
- 长上下文:最高支持32K tokens上下文长度
2. 环境准备
2.1 硬件要求
- 显卡:NVIDIA显卡(推荐RTX 3060/4060及以上)
- 显存:最低3GB可用显存
- 内存:建议16GB及以上
- 存储:模型文件约3.5GB空间
2.2 软件依赖
确保系统已安装以下基础组件:
# 检查NVIDIA驱动 nvidia-smi # 检查CUDA版本 nvcc --version # 检查conda环境 conda --version3. 快速部署指南
3.1 模型下载
模型默认路径为/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit,如需手动下载:
mkdir -p /root/ai-models/cyankiwi cd /root/ai-models/cyankiwi git clone https://huggingface.co/Qwen/Qwen3.5-4B-AWQ-4bit3.2 服务启动
项目使用supervisor进行服务管理:
# 查看服务状态 supervisorctl status # 启动服务 supervisorctl start qwen35-4b-awq # 停止服务 supervisorctl stop qwen35-4b-awq # 重启服务 supervisorctl restart qwen35-4b-awq3.3 WebUI访问
服务启动后,通过浏览器访问:
http://localhost:78604. 核心功能演示
4.1 多模态交互
在WebUI中可上传图片并进行交互:
# 示例:图片描述生成 from PIL import Image import requests img_url = "https://example.com/sample.jpg" response = model.generate( image=Image.open(requests.get(img_url, stream=True).raw), prompt="请描述这张图片的内容" ) print(response)4.2 工具调用
模型支持通过特定格式调用外部工具:
# 示例:天气查询工具调用 response = model.generate( prompt="<|tool|>weather<|input|>北京<|tool|>" ) print(response) # 输出: {"city": "北京", "weather": "晴", "temp": "25℃"}5. 常见问题排查
5.1 显存不足问题
如果启动失败提示显存不足:
# 检查显存占用 nvidia-smi # 终止残留进程 ps aux | grep VLLM | awk '{print $2}' | xargs kill -9 # 重新启动服务 supervisorctl start qwen35-4b-awq5.2 日志查看
调试时可查看实时日志:
# 运行日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log # 错误日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log6. 进阶配置
6.1 手动运行模式
调试时可手动启动服务:
cd /root/Qwen3.5-4B-AWQ-4bit /opt/miniconda3/envs/torch28/bin/python webui.py6.2 开机自启配置
项目已预置supervisor开机自启配置:
[program:qwen35-4b-awq] autostart=true autorestart=true7. 总结
Qwen3.5-4B-AWQ-4bit通过4bit量化技术实现了在消费级显卡上的高效部署,同时保留了多模态理解、工具调用等核心能力。本教程详细介绍了从环境准备到功能演示的全流程,帮助开发者快速上手这一轻量级大模型。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。