FunASR WebUI使用指南:支持实时录音与多格式导出|附部署技巧
1. 快速上手:从零开始语音识别体验
你是否正在寻找一个简单易用、功能完整的中文语音识别工具?不需要复杂的代码,也不需要深入理解模型原理,只需几分钟,就能搭建起属于自己的语音转文字系统。本文将带你全面掌握FunASR WebUI的使用方法——一款基于speech_ngram_lm_zh-cn模型二次开发的本地化语音识别工具,由开发者“科哥”精心打造。
这款 WebUI 界面友好,支持上传音频文件和浏览器实时录音两种方式,识别后还能一键导出.txt、.json和.srt字幕文件,非常适合做会议记录、视频字幕生成、语音笔记等实际场景。更重要的是,它完全开源,可在本地运行,保护你的隐私和数据安全。
无论你是技术新手还是有一定基础的开发者,只要跟着本文一步步操作,都能快速上手并投入实用。
2. 部署准备:如何启动 FunASR WebUI
在使用之前,首先要确保服务已经正确部署并运行起来。以下是详细的部署流程和常见问题解决建议。
2.1 启动服务
假设你已经通过 Docker 或源码方式成功部署了该镜像(镜像名称:FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥),启动完成后,默认会监听本地端口7860。
访问地址如下:
http://localhost:7860如果你是在远程服务器上部署的,可以通过以下地址访问(请替换<服务器IP>为实际 IP):
http://<服务器IP>:7860打开浏览器输入对应地址后,你应该能看到如下的界面:
如果页面无法加载,请检查:
- 服务是否已正常启动
- 端口
7860是否被防火墙或安全组规则屏蔽 - 浏览器是否阻止了不安全连接(部分 HTTPS 警告可忽略)
2.2 推荐运行环境
为了获得最佳体验,建议满足以下硬件条件:
| 组件 | 推荐配置 |
|---|---|
| CPU | Intel i5 及以上 |
| 内存 | ≥ 8GB |
| GPU | 支持 CUDA 的 NVIDIA 显卡(非必需,但能显著提升速度) |
| 存储 | ≥ 10GB 可用空间(用于缓存模型和输出文件) |
若无独立显卡,也可选择 CPU 模式运行,虽然速度稍慢,但仍可流畅处理日常任务。
3. 界面详解:各功能模块说明
FunASR WebUI 设计简洁直观,主要分为左侧控制面板和右侧识别区域两大部分。
3.1 头部信息区
顶部显示应用的基本信息:
- 标题:FunASR 语音识别 WebUI
- 描述:基于 FunASR 的中文语音识别系统
- 版权信息:webUI二次开发 by 科哥 | 微信:312088415
这部分仅为说明用途,不可编辑。
3.2 左侧控制面板功能解析
模型选择
目前提供两个可选模型:
- Paraformer-Large:大模型,识别精度高,适合对准确率要求高的场景
- SenseVoice-Small:小模型,响应速度快,适合实时交互或资源受限环境
默认选中的是 SenseVoice-Small,可根据需求切换。
设备选择
决定推理所使用的计算设备:
- CUDA:使用 GPU 加速(推荐有显卡时启用)
- CPU:纯 CPU 运行,兼容性更好但速度较慢
系统通常会自动检测可用设备并默认勾选 CUDA(如有支持)。
功能开关选项
三个实用的功能开关,按需开启:
- 启用标点恢复 (PUNC):自动为识别结果添加句号、逗号等标点,使文本更通顺
- 启用语音活动检测 (VAD):自动识别有效语音段落,跳过静音部分,提高效率
- 输出时间戳:在结果中包含每句话的时间信息,便于后期对齐音频
这三个功能强烈建议同时开启,尤其是制作字幕时非常有用。
模型状态与操作按钮
- 显示当前模型是否已加载成功(✓ 已加载 / ✗ 未加载)
- 提供“加载模型”按钮用于手动重新加载模型
- “刷新”按钮可更新当前状态显示
4. 使用方式一:上传音频文件进行识别
这是最常用的使用方式,适用于已有录音文件的用户。
4.1 支持的音频格式
FunASR WebUI 支持多种主流音频格式,包括:
- WAV (.wav)
- MP3 (.mp3)
- M4A (.m4a)
- FLAC (.flac)
- OGG (.ogg)
- PCM (.pcm)
推荐采样率为 16kHz,这是大多数语音识别模型的标准输入频率。过高或过低都可能影响识别效果。
你可以使用 Audacity、格式工厂等工具提前转换格式。
4.2 上传与识别步骤
在主界面找到"ASR 语音识别"区域
点击"上传音频"按钮,选择本地文件
文件上传完成后,在下方设置参数:
- 批量大小(秒):默认 300 秒(即 5 分钟),最长支持 600 秒
- 识别语言:支持
auto(自动检测)、zh(中文)、en(英文)、yue(粤语)、ja(日语)、ko(韩语)
点击"开始识别"按钮,等待处理完成
处理时间取决于音频长度和所用设备(GPU 更快)。一般情况下,1 分钟音频在 GPU 上仅需几秒钟即可完成。
4.3 查看识别结果
识别完成后,结果将以三个标签页形式展示:
文本结果
显示最终的纯文本内容,例如:
你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。可以直接复制粘贴到文档中使用。
详细信息
以 JSON 格式返回完整识别数据,包含每个词的时间戳、置信度等元信息,适合程序调用或进一步分析。
{ "text": "你好欢迎使用语音识别系统", "timestamp": [[0.0, 0.5], [0.5, 2.5], [2.5, 5.0]] }时间戳
以列表形式清晰列出每一句的起止时间,格式为:
[001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)这对剪辑视频、定位关键发言非常有帮助。
5. 使用方式二:浏览器实时录音识别
除了上传文件,你还可以直接使用麦克风进行实时录音识别,特别适合做即时听写或口语练习。
5.1 开始录音
- 点击"麦克风录音"按钮
- 浏览器会弹出权限请求,点击"允许"
- 对着麦克风说话即可录制
注意:首次使用需授权麦克风权限,不同浏览器位置略有差异。
5.2 停止与识别
- 录音结束后,点击"停止录音"
- 系统会自动将录音数据传递给 ASR 引擎
- 点击"开始识别"即可获取结果
整个过程无需保存中间文件,全程在浏览器内完成,方便快捷。
6. 结果导出:支持多格式一键下载
识别完成后,你可以将结果导出为三种常用格式,满足不同用途。
6.1 导出格式说明
| 下载按钮 | 输出格式 | 适用场景 |
|---|---|---|
| 下载文本 | .txt | 纯文本记录,适合复制粘贴、整理笔记 |
| 下载 JSON | .json | 开发者使用,可用于后续程序处理 |
| 下载 SRT | .srt | 视频字幕文件,可导入 Premiere、剪映等软件 |
SRT 是最常见的字幕格式之一,结构清晰,易于编辑。
示例.srt内容:
1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统6.2 文件存储路径
所有输出文件统一保存在项目目录下的outputs/文件夹中,命名规则为:
outputs/outputs_YYYYMMDDHHMMSS/每次识别都会创建一个新的时间戳子目录,避免覆盖。例如:
outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt其中:
audio_001.wav是原始录音的副本- 其他文件分别为对应格式的结果
你可以定期清理旧文件以节省磁盘空间。
7. 高级设置与优化技巧
为了让识别效果更好,这里分享一些实用的进阶技巧。
7.1 批量大小调整
- 默认值:300 秒(5 分钟)
- 可调范围:60 ~ 600 秒
对于较长的音频(如讲座、会议),可以适当增加批量大小;反之,短语音则无需修改。
注意:过大的批量可能导致内存不足,尤其是在 CPU 模式下。
7.2 语言设置建议
合理选择语言可大幅提升识别准确率:
| 场景 | 推荐设置 |
|---|---|
| 普通话对话 | zh |
| 英文播客 | en |
| 方言或混合语种 | auto |
| 粤语访谈 | yue |
| 日语课程 | ja |
当不确定语种时,优先使用auto自动检测。
7.3 时间戳的实际用途
开启“输出时间戳”后,不仅能查看每句话的出现时间,还能实现:
- 视频字幕精准同步
- 快速定位某段发言(如“第3分钟提到的关键观点”)
- 自动生成会议纪要索引
结合 SRT 导出功能,轻松完成从录音到字幕的一体化流程。
8. 常见问题与解决方案
在实际使用过程中,可能会遇到一些小问题。以下是高频问题及应对方法。
Q1:识别结果不准确怎么办?
原因分析与对策:
- 音频质量差 → 尽量使用清晰录音,避免背景噪音
- 语速过快或发音不清 → 适当放慢语速,吐字清晰
- 未选择正确语言 → 根据内容选择
zh或auto - 模型未加载完全 → 点击“加载模型”重试
建议先用一段标准普通话测试,确认基础功能正常后再尝试复杂场景。
Q2:识别速度太慢?
可能原因:
- 正在使用 CPU 模式 → 切换至 CUDA(GPU)模式
- 音频过长 → 分段处理,每段不超过 5 分钟
- 模型过大 → 尝试切换为 SenseVoice-Small 模型
GPU 能带来数倍的速度提升,强烈建议配备 NVIDIA 显卡用户开启 CUDA。
Q3:无法上传音频文件?
请检查以下几点:
- 文件格式是否在支持列表中(推荐使用 MP3 或 WAV)
- 文件大小是否超过限制(建议小于 100MB)
- 浏览器是否异常(尝试更换 Chrome/Firefox)
部分老旧浏览器可能存在兼容性问题,建议使用最新版主流浏览器。
Q4:录音没有声音?
排查方向:
- 浏览器是否允许麦克风权限(可在设置中查看)
- 系统麦克风是否正常工作(可用其他录音软件测试)
- 麦克风音量是否静音或过低
可在操作系统的声音设置中测试麦克风输入电平。
Q5:识别结果出现乱码?
通常由编码问题引起,解决办法:
- 确保选择正确的识别语言
- 检查音频编码格式是否标准(避免特殊编码)
- 尝试重新导出为 UTF-8 编码的文本
绝大多数情况下,正确设置语言即可解决。
Q6:如何提高识别准确率?
综合建议如下:
- 使用16kHz 采样率的高质量音频
- 减少环境噪音(可配合降噪软件预处理)
- 发音清晰,避免吞音或连读
- 合理选择识别语言(中文选
zh) - 开启标点恢复和VAD功能
对于专业术语较多的内容,未来可通过热词功能进一步优化(当前版本暂未开放配置入口)。
9. 总结:为什么你应该试试 FunASR WebUI
经过以上详细介绍,相信你已经掌握了 FunASR WebUI 的完整使用流程。总结一下它的核心优势:
- 开箱即用:无需编程,图形化界面操作简单
- 本地运行:数据不出设备,保障隐私安全
- 多格式支持:兼容常见音频类型,适配性强
- 实时录音 + 文件识别:两种模式自由切换
- 多格式导出:一键生成 txt、json、srt,满足多样化需求
- 永久开源:由社区开发者维护,持续更新迭代
无论是学生做课堂笔记、记者整理采访稿,还是自媒体创作者制作视频字幕,这套工具都能帮你大幅提升工作效率。
更重要的是,它基于强大的Paraformer和SenseVoice模型,中文识别能力处于行业领先水平,即使在嘈杂环境下也能保持较高准确率。
现在就动手部署起来吧!你会发现,语音转文字原来可以这么简单。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。