新手必看!Fun-ASR语音识别系统保姆级入门教程
你是不是也遇到过这些场景:
会议录音堆了十几条,听一遍要两小时,整理成文字又得半天;
客户电话里说了一大串专业术语,转写结果错得离谱;
想给教学视频加字幕,但云识别要上传音频,又担心隐私泄露……
别折腾了。今天这篇教程,就是为你量身定制的——不用装环境、不写代码、不配服务器,打开浏览器就能用的本地语音识别神器 Fun-ASR,从零开始,15分钟内跑通全流程。
它不是另一个需要注册账号、按小时计费的在线API,而是钉钉与通义联合推出、由开发者“科哥”亲手打磨的开源语音识别系统。所有音频都在你自己的电脑上处理,不上传、不联网、不依赖云端——你的声音,只属于你自己。
更关键的是,它把复杂的语音识别模型,封装成一个像微信一样点点就能用的网页界面。你不需要知道什么是梅尔频谱、CTC解码或VAD检测,只需要会拖文件、点按钮、看结果。这篇教程,就带你一步步走完从启动到出结果的全部环节,连麦克风怎么授权、热词怎么写、批量文件怎么导出都给你讲透。
1. 三步启动:5分钟完成本地部署
Fun-ASR 的最大优势,就是“开箱即用”。它已经打包好所有依赖,你只需执行一条命令,就能在自己电脑上跑起来。
1.1 启动前确认环境
Fun-ASR 支持三种运行模式,适配不同硬件:
- GPU 加速(推荐):NVIDIA 显卡(RTX 3060 及以上效果最佳),识别快、延迟低
- Apple M系列芯片(Mac用户):自动启用 MPS 加速,性能接近中端GPU
- 纯CPU模式:没有显卡也能跑,适合笔记本或老旧设备,识别稍慢但完全可用
小贴士:首次运行建议先用 CPU 模式验证是否能正常启动,再切换 GPU 提升体验。
1.2 执行启动命令
进入 Fun-ASR 项目根目录,打开终端(Windows 用户用 PowerShell 或 CMD),输入:
bash start_app.sh这条命令会自动完成三件事:
① 加载 Python 环境和依赖库
② 启动 WebUI 服务
③ 在后台加载 Fun-ASR-Nano-2512 模型(约需 10–30 秒,取决于硬件)
你将看到类似这样的日志输出:
INFO: Uvicorn running on http://0.0.0.0:7860 (Press CTRL+C to quit) INFO: Application startup complete. INFO: Model loaded successfully on cuda:0只要看到Model loaded successfully,就说明模型已就绪。
1.3 访问 WebUI 界面
打开任意现代浏览器(Chrome / Edge / Firefox / Safari 均可),在地址栏输入:
- 本机使用:
http://localhost:7860 - 局域网共享(如给同事演示):
http://你的电脑IP:7860(例如http://192.168.1.100:7860)
注意:如果打不开,请检查防火墙是否阻止了 7860 端口;Windows 用户可临时关闭 Windows Defender 防火墙测试。
页面加载完成后,你会看到一个干净、分区明确的中文界面——这就是 Fun-ASR 的全部操作入口。没有弹窗广告,没有登录墙,也没有试用限制。
2. 核心功能实操:从单文件识别到批量处理
Fun-ASR WebUI 共有六大功能模块,我们按新手最常用路径排序,手把手带你逐个打通。
2.1 语音识别:上传一个文件,30秒拿到文字稿
这是你每天用得最多的基础功能。适合处理会议录音、课程回放、采访音频等单个长文件。
步骤一:上传音频
- 点击【语音识别】标签页
- 点击灰色区域“上传音频文件”,选择本地
.wav、.mp3、.m4a或.flac文件 - 或点击右下角麦克风图标,直接录音(最长支持 5 分钟)
推荐格式:优先用
.wav(无损,识别最准);手机录的.m4a也可直接用,无需转换。
步骤二:配置关键参数(3个选项,全中文,一目了然)
| 设置项 | 说明 | 新手建议 |
|---|---|---|
| 目标语言 | 中文 / 英文 / 日文(默认中文) | 选对语言是准确率的第一前提 |
| 启用文本规整(ITN) | 把“二零二五年”→“2025年”,“一千二百三十四”→“1234” | 强烈开启,生成结果更规范 |
| 热词列表 | 每行一个词,提升专有名词识别率 | 如识别客服录音,填入“400-888-XXXX”“VIP通道”等 |
热词填写示例(复制粘贴即可):
钉钉文档 通义千问 Fun-ASR 科哥 实时流式 VAD检测步骤三:开始识别 & 查看结果
点击【开始识别】按钮,进度条开始推进。
- 1分钟音频:GPU 模式约 60 秒,CPU 模式约 120 秒
- 结果分两栏显示:
- 识别结果:原始模型输出(含口语停顿词如“呃”“啊”)
- 规整后文本:ITN 处理后的书面语(去掉冗余词,数字/日期/单位已标准化)
实测对比:一段含“开放时间是二零二五年三月十二号”的录音,规整后自动变为“开放时间是2025年3月12日”。
2.2 实时流式识别:边说边出字,模拟直播字幕效果
虽然 Fun-ASR 模型本身不原生支持流式推理,但 WebUI 通过 VAD(语音活动检测)+ 分段识别,实现了非常实用的“伪流式”体验——适合做教学口播、线上分享、访谈提纲整理。
操作流程(比单文件还简单)
- 切换到【实时流式识别】标签页
- 浏览器弹出麦克风权限请求 → 点击【允许】(必须!否则无法录音)
- 点击中间麦克风图标开始录音
- 对着麦克风自然说话(语速适中,避免过近爆音)
- 说完后点击【停止】→ 自动触发识别 → 文字逐段浮现
注意:这不是毫秒级字幕,而是“说一段、停一下、出一段文字”。每段最长 30 秒(可调),适合非强实时场景。
为什么它“够用”?
- 不依赖网络,断网也能用
- 识别结果带时间戳(如
[00:12] 今天我们来介绍 Fun-ASR 的核心功能) - 支持热词和 ITN,专业内容不翻车
场景举例:录制10分钟产品讲解视频时,同步得到带时间轴的逐字稿,剪辑时直接按时间戳定位内容。
2.3 批量处理:一次导入20个音频,自动排队识别
当你有一周的晨会录音、五场培训回放、十段客户反馈,手动一个个传太耗时?批量处理就是为此而生。
三步搞定全流程
上传多个文件
- 点击【批量处理】页的“上传音频文件”
- 按住
Ctrl(Windows)或Cmd(Mac)多选,或直接拖拽整个文件夹到上传区
统一设置参数
- 所有文件共用同一套配置:语言、ITN开关、热词列表(填一次,全批生效)
启动 & 监控进度
- 点击【开始批量处理】
- 页面实时显示:
正在处理 3/20 — test_20250312_03.mp3 - 完成后自动跳转至【识别历史】页,所有结果集中呈现
导出结果:一键生成 CSV / JSON,无缝对接办公软件
- 点击【导出为 CSV】:生成标准表格,含列:
文件名、识别时间、原始文本、规整文本、语言 - Excel 打开即用,可筛选、排序、加批注
- JSON 格式则方便程序员写脚本二次处理(如自动提取客户问题关键词)
小技巧:把同类型音频(如全是客服电话)放同一文件夹,批量处理 + 统一热词,准确率直线上升。
3. 进阶能力解锁:VAD检测、历史管理与系统调优
当你熟悉基础操作后,这三个模块会让你的使用效率再上一个台阶。
3.1 VAD 检测:智能切分长音频,告别静音干扰
很多会议录音开头有30秒静音、中间有长时间停顿,直接识别会浪费算力、拉低准确率。VAD(语音活动检测)就是专门解决这个问题的“音频过滤器”。
使用场景举例:
- 2小时讲座录音,实际讲话仅45分钟 → VAD 自动标出有效语音段
- 录音中穿插键盘声、翻页声 → VAD 只保留人声片段
操作步骤:
- 进入【VAD 检测】页,上传长音频
- 设置【最大单段时长】(默认30000ms=30秒,防止单段过长影响识别)
- 点击【开始 VAD 检测】
- 查看结果:列出所有语音片段起止时间(如
00:42–02:18)、时长、是否启用识别
实测效果:一段含大量静音的1.2GB会议录音,VAD 检测出17个有效语音段,总时长仅48分钟,识别耗时减少62%。
3.2 识别历史:永久保存、随时检索、安全可控
所有识别记录默认存入本地 SQLite 数据库(路径:webui/data/history.db),关机重启也不丢数据。
你能做什么?
- 快速回溯:在【识别历史】页查看最近100条记录(含时间、文件名、文本摘要)
- 精准搜索:输入关键词(如“退款”“售后”),自动匹配文件名和识别内容
- 深度查看:输入记录ID,查看完整原始文本、规整文本、所用热词、ITN开关状态
- 灵活清理:单条删除 / 批量删除 / 一键清空( 清空后不可恢复,慎点)
数据安全提示:
history.db是纯本地文件,你可以随时用 SQLite 工具(如 DB Browser)打开备份,或设置定时脚本自动归档。
3.3 系统设置:根据你的电脑,动态调优性能
别被“设置”二字吓到——这里没有复杂参数,只有4个真正影响体验的开关:
| 设置项 | 作用 | 推荐操作 |
|---|---|---|
| 计算设备 | 选择运行位置 | GPU用户选cuda:0;Mac选mps;无显卡选cpu |
| 清理 GPU 缓存 | 释放显存,解决“CUDA out of memory” | 识别卡顿时点一下,立竿见影 |
| 卸载模型 | 退出时释放内存 | 长时间不用可点此节省资源 |
| 批处理大小 | 控制并发数(高级用户) | 新手保持默认1即可 |
故障自愈指南:
- 若识别变慢 → 点【清理 GPU 缓存】+ 重启浏览器
- 若页面卡死 → 关闭标签页,重新访问
http://localhost:7860 - 若麦克风失灵 → 刷新页面 → 再次点击麦克风图标授权
4. 新手避坑指南:7个高频问题,科哥亲答
基于真实用户反馈,我们整理了最常遇到的7个问题,并给出可立即执行的解决方案。
Q1:启动后打不开http://localhost:7860?
A:检查三点——① 终端是否显示Uvicorn running on...;② 浏览器地址是否输错(注意是http不是https);③ Windows 用户需关闭防火墙或添加 7860 端口例外。
Q2:识别结果全是乱码或空?
A:90% 是音频格式问题。请确认:① 文件未损坏(用播放器能正常播放);② 格式为.wav/.mp3/.m4a/.flac;③ 采样率在 16kHz–48kHz 范围内(手机录音通常符合)。
Q3:中文识别不准,尤其专业词?
A:立刻启用【热词列表】!把行业术语、人名、产品名、电话号码逐行填入,模型会在解码时重点匹配这些词。
Q4:麦克风没反应,或录音后识别失败?
A:① Chrome/Edge 浏览器首次使用需手动授权(地址栏左侧锁形图标 → 点击 → 麦克风设为“允许”);② Mac 用户需在「系统设置 > 隐私与安全性 > 麦克风」中勾选浏览器。
Q5:批量处理中途崩溃?
A:降低单次处理量——建议每批 ≤30 个文件;大文件(>100MB)单独处理;确保磁盘剩余空间 >5GB。
Q6:导出的 CSV 用 Excel 打开是乱码?
A:用记事本打开 CSV → 另存为 → 编码选UTF-8 with BOM→ 再用 Excel 打开即可正常显示中文。
Q7:想换模型或升级版本?
A:Fun-ASR 当前默认模型为Fun-ASR-Nano-2512(轻量高准)。如需其他模型,关注作者“科哥”微信(312088415)获取更新包,替换models/目录下文件即可。
5. 总结:为什么 Fun-ASR 是新手语音识别的第一选择?
回顾这整篇教程,你其实已经完成了语音识别工具链的完整闭环:
部署极简:一条命令,5分钟启动,无Python版本焦虑、无CUDA驱动踩坑;
操作零门槛:全中文界面,无命令行、无配置文件、无API密钥;
结果高质量:ITN规整+热词增强,让口语秒变正式文档;
数据真安全:音频不上传、模型不联网、历史存本地,敏感信息零风险;
扩展有弹性:从单文件→流式→批量→VAD预处理,覆盖95%真实需求。
它不追求参数榜单上的“第一”,而是专注解决你明天就要面对的问题:
- 教师要给3小时网课加字幕?→ 批量处理 + 导出CSV
- 客服主管要分析100通电话中的投诉关键词?→ VAD切分 + 热词聚焦 + 历史搜索
- 开发者想快速验证ASR效果?→ 本地WebUI + 模型热替换 + 完整日志
Fun-ASR 的本质,是一个“把AI能力翻译成人话”的桥梁。它背后是钉钉的工程沉淀、通义的模型能力、科哥的落地智慧,最终凝结成你浏览器里那个安静却强大的界面。
现在,关掉这篇教程,打开终端,敲下bash start_app.sh——你的本地语音识别之旅,就从这一行命令开始。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。