从零搭建高精度ASR系统｜FunASR + speech_ngram_lm

从零搭建高精度ASR系统｜FunASR + speech_ngram_lm_zh-cn镜像实践

1. 背景与目标

自动语音识别（Automatic Speech Recognition, ASR）技术在智能客服、会议转录、字幕生成等场景中发挥着关键作用。随着深度学习的发展，基于端到端模型的ASR系统显著提升了识别准确率和部署灵活性。

本文聚焦于构建一个高精度、易用性强、支持中文优化的语言模型增强型ASR系统，基于开源项目 FunASR，并结合speech_ngram_lm_zh-cn语言模型进行二次开发的定制化镜像——“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”。

我们的目标是：

快速部署可运行的本地ASR服务
实现高质量中文语音识别
支持WebUI交互、实时录音与批量处理
利用N-gram语言模型提升上下文理解能力

该镜像已集成核心组件，极大简化了环境配置流程，适合开发者快速验证和落地应用。

2. 技术架构解析

2.1 系统整体架构

本系统采用模块化设计，主要由以下几部分构成：

[用户输入] ↓ (音频文件 / 实时录音) [WebUI前端] ↔ [FastAPI后端] ↓ [FunASR推理引擎] ↙ ↓ ↘ [VAD检测] [ASR主模型] [标点恢复] ↓ [N-gram语言模型修正] ↓ [输出文本 + 时间戳] ↓ [多格式导出：txt/json/srt]

其中，speech_ngram_lm_zh-cn的引入增强了对中文语法结构的理解，在专业术语、长句断句等方面表现更优。

2.2 核心组件说明

组件	功能
Paraformer-Large	主ASR模型，高精度离线识别
SenseVoice-Small	轻量级模型，适用于低延迟场景
VAD（Voice Activity Detection）	自动切分语音段落，去除静音
PUNC（标点恢复）	基于上下文添加逗号、句号等
speech_ngram_lm_zh-cn	中文N-gram语言模型，提升流利度与准确性
Gradio WebUI	可视化界面，支持上传、录音、结果查看

该镜像通过预加载上述模型并封装启动脚本，实现了“一键运行”，大幅降低使用门槛。

3. 部署与运行步骤

3.1 环境准备

确保服务器满足以下条件：

操作系统：Linux（Ubuntu/CentOS 推荐）
Python ≥ 3.8（容器内已包含）
Docker 已安装
显卡驱动（如使用GPU加速）：NVIDIA Driver + CUDA Toolkit
至少 8GB 内存（推荐16GB以上）

# 检查Docker是否安装 docker --version # 启用nvidia-docker支持（用于GPU加速） sudo docker run --gpus all nvidia/cuda:11.8-base nvidia-smi

3.2 拉取并运行镜像

使用官方提供的Docker镜像地址进行拉取：

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

创建模型存储目录并运行容器：

mkdir -p /data/funasr-runtime-resources/models docker run -d \ --name=funasr \ --privileged=true \ -p 7860:7860 \ -v /data/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

注：若需启用GPU，请添加--gpus all参数，并确认CUDA版本兼容性。

3.3 启动ASR服务

进入容器并启动服务：

docker exec -it funasr /bin/sh cd /workspace/FunASR/runtime

执行启动脚本，集成N-gram语言模型：

nohup bash run_server_2pass.sh \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \ --itn-dir thuduj12/fst_itn_zh \ > log.txt 2>&1 &

服务将在http://localhost:7860启动WebUI界面。

4. WebUI功能详解与使用流程

4.1 访问Web界面

启动成功后，在浏览器访问：

http://<服务器IP>:7860

首次加载可能需要几分钟时间（模型初始化），完成后将显示主界面。

4.2 控制面板配置

模型选择

Paraformer-Large：适合追求高精度的场景，识别质量更高
SenseVoice-Small：响应速度快，资源占用低，适合移动端或边缘设备

设备模式

CUDA：使用GPU加速，建议有NVIDIA显卡时启用
CPU：通用模式，无需额外依赖

功能开关

✅启用标点恢复：自动补全句号、逗号
✅启用VAD：自动分割语音片段
✅输出时间戳：便于后期编辑或字幕制作

点击“加载模型”按钮完成初始化。

4.3 使用方式一：上传音频识别

支持格式包括.wav,.mp3,.m4a,.flac,.ogg,.pcm，推荐采样率为16kHz。

操作步骤：

点击“上传音频”按钮
设置“批量大小”（默认300秒，最长支持5分钟）
选择语言：auto（自动检测）、zh（中文）、en（英文）等
点击“开始识别”

识别结果将以三种形式展示：

文本结果：纯净文字输出
详细信息：JSON格式，含置信度、时间戳
时间戳：按词/句划分的时间区间

4.4 使用方式二：浏览器实时录音

无需提前录制音频，直接通过麦克风输入：

点击“麦克风录音”
浏览器请求权限时点击“允许”
开始说话，结束后点击“停止录音”
点击“开始识别”处理录音

此功能适用于会议记录、口头笔记等即时转写场景。

4.5 结果导出与保存路径

所有输出文件统一保存在：

outputs/outputs_YYYYMMDDHHMMSS/

例如：

outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

支持下载三种格式：

.txt：纯文本，便于复制粘贴
.json：结构化数据，可用于程序解析
.srt：标准字幕文件，兼容主流视频编辑软件

5. 性能优化与调参建议

5.1 提升识别准确率的关键策略

方法	说明
使用高质量音频	推荐16kHz单声道WAV格式，减少压缩失真
启用N-gram语言模型	`speech_ngram_lm_zh-cn`显著改善语义连贯性
添加热词	在`/workspace/models/hotwords.txt`中配置行业术语
关闭背景噪音	录音时保持安静环境，或预先降噪处理

示例热词配置（每行一个）：

人工智能 50 大模型 40 语音识别 60

权重范围为1~100，数值越高优先级越强。

5.2 加快识别速度的方法

场景	优化方案
长音频处理慢	分段切割为小于5分钟的片段
CPU模式卡顿	切换至CUDA模式，利用GPU加速
实时性要求高	使用SenseVoice-Small模型替代Paraformer

可通过调整batch_size_s参数控制每次处理的音频长度，默认300秒。

5.3 常见问题排查指南

问题现象	可能原因	解决方法
识别结果乱码	编码错误或语言设置不当	更改为`zh`语言模式
无法上传文件	文件过大或格式不支持	转换为MP3/WAV，控制在100MB以内
麦克风无响应	权限未授权或设备故障	检查浏览器权限及系统设置
模型加载失败	磁盘空间不足或网络中断	查看日志`log.txt`定位错误

可通过查看容器日志辅助诊断：

docker logs funasr

6. 应用场景与扩展方向

6.1 典型应用场景

会议纪要自动生成：上传录音 → 输出带时间戳的文本 → 导出SRT字幕
教学视频字幕制作：配合剪辑工具实现自动化字幕嵌入
电话客服质检：批量处理通话录音，提取关键词分析情绪
无障碍辅助工具：为听障人士提供实时语音转文字服务

6.2 可扩展功能建议

API接口开放
- 将Gradio后端替换为FastAPI，提供RESTful接口
- 支持POST请求上传音频并返回JSON结果
多语言混合识别
- 配置auto语言模式，自动识别中英混杂内容
- 结合SenseVoice系列模型提升跨语种表现
私有化部署增强
- 使用HTTPS加密通信
- 增加用户认证机制防止未授权访问
模型微调
- 基于自有数据集对Paraformer进行Fine-tuning
- 提升特定领域（医疗、法律、金融）的专业词汇识别率

7. 总结

本文详细介绍了如何基于“FunASR + speech_ngram_lm_zh-cn”定制镜像，从零搭建一套高可用、高性能的中文语音识别系统。我们完成了：

Docker镜像的拉取与运行
WebUI服务的部署与访问
两种识别方式（上传文件 & 实时录音）的实际操作
多格式结果导出与工程化落地建议
性能优化与常见问题解决方案

该方案的优势在于：

开箱即用：预集成模型，避免繁琐依赖安装
中文优化：借助N-gram语言模型显著提升语义合理性
交互友好：可视化界面降低非技术人员使用门槛
灵活扩展：支持API化、私有部署与模型定制

对于希望快速验证ASR能力、构建语音转写产品的团队而言，这是一个极具实用价值的技术路径。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从零搭建高精度ASR系统｜FunASR + speech_ngram_lm_zh-cn镜像实践