Qwen3-ASR-1.7B在Ubuntu20.04上的Docker部署全指南-洪萨配资

Qwen3-ASR-1.7B在Ubuntu20.04上的Docker部署全指南

10分钟快速上手，让语音识别模型在本地跑起来

1. 引言

如果你正在寻找一个强大且易用的语音识别解决方案，Qwen3-ASR-1.7B绝对值得一试。这个模型支持52种语言和方言，从普通话到粤语，从英语到各种口音，都能准确识别。更厉害的是，它还能处理歌唱识别和复杂声学环境下的语音转写。

今天我就带你一步步在Ubuntu 20.04系统上，用Docker快速部署这个模型。不用担心复杂的环境配置，我们会用最简单的方式让模型跑起来。无论你是开发者还是技术爱好者，跟着这篇指南走，10分钟内就能看到效果。

2. 环境准备

在开始之前，确保你的系统满足以下要求：

Ubuntu 20.04 LTS
Docker已安装
NVIDIA显卡（建议8GB以上显存）
NVIDIA驱动和CUDA工具包

如果你还没有安装Docker，可以用以下命令快速安装：

# 更新软件包列表 sudo apt-get update # 安装必要的依赖 sudo apt-get install apt-transport-https ca-certificates curl software-properties-common # 添加Docker官方GPG密钥 curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add - # 添加Docker仓库 sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu focal stable" # 安装Docker sudo apt-get update sudo apt-get install docker-ce docker-ce-cli containerd.io # 将当前用户添加到docker组（避免每次都要sudo） sudo usermod -aG docker ${USER}

安装完成后需要重新登录使权限生效。

3. 快速部署步骤

3.1 拉取预构建镜像

最简单的方式是使用预构建的Docker镜像，省去自己编译的麻烦：

# 拉取Qwen3-ASR官方镜像 docker pull qwen/qwen3-asr:1.7b-cuda11.8 # 查看镜像是否拉取成功 docker images | grep qwen

如果网络条件不允许拉取预构建镜像，也可以选择自行构建。

3.2 启动容器

使用以下命令启动容器并映射必要的端口：

docker run -it --gpus all \ -p 8000:8000 \ -v $(pwd)/models:/app/models \ --name qwen-asr \ qwen/qwen3-asr:1.7b-cuda11.8

参数说明：

--gpus all：启用所有GPU
-p 8000:8000：将容器的8000端口映射到主机
-v $(pwd)/models:/app/models：挂载模型存储目录
--name qwen-asr：给容器起个名字方便管理

3.3 模型下载

容器启动后，我们需要下载模型权重：

# 进入容器内部 docker exec -it qwen-asr bash # 下载模型（大约需要3.5GB空间） python -c " from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-ASR-1.7B') print(f'模型下载完成，路径: {model_dir}') "

下载时间取决于你的网络速度，模型大小约3.5GB。

4. 基础使用示例

现在让我们测试一下模型是否正常工作。创建一个简单的测试脚本：

# test_asr.py import torch from qwen_asr import Qwen3ASRModel # 加载模型 model = Qwen3ASRModel.from_pretrained( "/app/models/Qwen/Qwen3-ASR-1.7B", dtype=torch.bfloat16, device_map="cuda:0" ) # 测试语音识别 results = model.transcribe( audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav", language=None # 自动检测语言 ) print(f"检测到的语言: {results[0].language}") print(f"识别结果: {results[0].text}")

运行测试脚本：

python test_asr.py

如果一切正常，你会看到类似这样的输出：

检测到的语言: English 识别结果: This is a test audio for speech recognition.

5. 启动API服务

Qwen3-ASR提供了方便的HTTP API服务，可以这样启动：

# 在容器内执行 qwen-asr-serve /app/models/Qwen/Qwen3-ASR-1.7B \ --gpu-memory-utilization 0.8 \ --host 0.0.0.0 \ --port 8000

服务启动后，你可以用curl测试API：

curl -X POST http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "messages": [ { "role": "user", "content": [ { "type": "audio_url", "audio_url": { "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav" } } ] } ] }'

6. 常见问题解决

6.1 显存不足问题

如果遇到显存不足的错误，可以尝试以下方法：

# 使用更小的批次大小 qwen-asr-serve /app/models/Qwen/Qwen3-ASR-1.7B \ --gpu-memory-utilization 0.6 \ --max-batch-size 8

6.2 端口冲突

如果8000端口被占用，可以改用其他端口：

docker run -it --gpus all \ -p 8080:8000 \ # 将主机8080映射到容器8000 -v $(pwd)/models:/app/models \ qwen/qwen3-asr:1.7b-cuda11.8

6.3 模型下载慢

如果模型下载速度慢，可以设置镜像源：

# 在容器内设置环境变量 export HF_ENDPOINT=https://hf-mirror.com export MODELSCOPE_ENDPOINT=https://mirror.modelscope.cn

7. 性能优化建议

根据你的硬件配置，可以调整这些参数来获得更好的性能：

# 针对不同显存大小的推荐配置 # 8GB显存： qwen-asr-serve /app/models/Qwen/Qwen3-ASR-1.7B \ --gpu-memory-utilization 0.7 \ --max-batch-size 4 # 16GB显存： qwen-asr-serve /app/models/Qwen/Qwen3-ASR-1.7B \ --gpu-memory-utilization 0.8 \ --max-batch-size 8 # 24GB+显存： qwen-asr-serve /app/models/Qwen/Qwen3-ASR-1.7B \ --gpu-memory-utilization 0.9 \ --max-batch-size 16