news 2026/3/27 6:10:57

FunASR WebUI使用指南:支持实时录音与多格式导出|附部署技巧

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
FunASR WebUI使用指南:支持实时录音与多格式导出|附部署技巧

FunASR WebUI使用指南:支持实时录音与多格式导出|附部署技巧

1. 快速上手:从零开始语音识别体验

你是否正在寻找一个简单易用、功能完整的中文语音识别工具?不需要复杂的代码,也不需要深入理解模型原理,只需几分钟,就能搭建起属于自己的语音转文字系统。本文将带你全面掌握FunASR WebUI的使用方法——一款基于speech_ngram_lm_zh-cn模型二次开发的本地化语音识别工具,由开发者“科哥”精心打造。

这款 WebUI 界面友好,支持上传音频文件和浏览器实时录音两种方式,识别后还能一键导出.txt.json.srt字幕文件,非常适合做会议记录、视频字幕生成、语音笔记等实际场景。更重要的是,它完全开源,可在本地运行,保护你的隐私和数据安全。

无论你是技术新手还是有一定基础的开发者,只要跟着本文一步步操作,都能快速上手并投入实用。


2. 部署准备:如何启动 FunASR WebUI

在使用之前,首先要确保服务已经正确部署并运行起来。以下是详细的部署流程和常见问题解决建议。

2.1 启动服务

假设你已经通过 Docker 或源码方式成功部署了该镜像(镜像名称:FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥),启动完成后,默认会监听本地端口7860

访问地址如下:

http://localhost:7860

如果你是在远程服务器上部署的,可以通过以下地址访问(请替换<服务器IP>为实际 IP):

http://<服务器IP>:7860

打开浏览器输入对应地址后,你应该能看到如下的界面:

如果页面无法加载,请检查:

  • 服务是否已正常启动
  • 端口7860是否被防火墙或安全组规则屏蔽
  • 浏览器是否阻止了不安全连接(部分 HTTPS 警告可忽略)

2.2 推荐运行环境

为了获得最佳体验,建议满足以下硬件条件:

组件推荐配置
CPUIntel i5 及以上
内存≥ 8GB
GPU支持 CUDA 的 NVIDIA 显卡(非必需,但能显著提升速度)
存储≥ 10GB 可用空间(用于缓存模型和输出文件)

若无独立显卡,也可选择 CPU 模式运行,虽然速度稍慢,但仍可流畅处理日常任务。


3. 界面详解:各功能模块说明

FunASR WebUI 设计简洁直观,主要分为左侧控制面板和右侧识别区域两大部分。

3.1 头部信息区

顶部显示应用的基本信息:

  • 标题:FunASR 语音识别 WebUI
  • 描述:基于 FunASR 的中文语音识别系统
  • 版权信息:webUI二次开发 by 科哥 | 微信:312088415

这部分仅为说明用途,不可编辑。

3.2 左侧控制面板功能解析

模型选择

目前提供两个可选模型:

  • Paraformer-Large:大模型,识别精度高,适合对准确率要求高的场景
  • SenseVoice-Small:小模型,响应速度快,适合实时交互或资源受限环境
    默认选中的是 SenseVoice-Small,可根据需求切换。
设备选择

决定推理所使用的计算设备:

  • CUDA:使用 GPU 加速(推荐有显卡时启用)
  • CPU:纯 CPU 运行,兼容性更好但速度较慢

系统通常会自动检测可用设备并默认勾选 CUDA(如有支持)。

功能开关选项

三个实用的功能开关,按需开启:

  • 启用标点恢复 (PUNC):自动为识别结果添加句号、逗号等标点,使文本更通顺
  • 启用语音活动检测 (VAD):自动识别有效语音段落,跳过静音部分,提高效率
  • 输出时间戳:在结果中包含每句话的时间信息,便于后期对齐音频

这三个功能强烈建议同时开启,尤其是制作字幕时非常有用。

模型状态与操作按钮
  • 显示当前模型是否已加载成功(✓ 已加载 / ✗ 未加载)
  • 提供“加载模型”按钮用于手动重新加载模型
  • “刷新”按钮可更新当前状态显示

4. 使用方式一:上传音频文件进行识别

这是最常用的使用方式,适用于已有录音文件的用户。

4.1 支持的音频格式

FunASR WebUI 支持多种主流音频格式,包括:

  • WAV (.wav)
  • MP3 (.mp3)
  • M4A (.m4a)
  • FLAC (.flac)
  • OGG (.ogg)
  • PCM (.pcm)

推荐采样率为 16kHz,这是大多数语音识别模型的标准输入频率。过高或过低都可能影响识别效果。

你可以使用 Audacity、格式工厂等工具提前转换格式。

4.2 上传与识别步骤

  1. 在主界面找到"ASR 语音识别"区域

  2. 点击"上传音频"按钮,选择本地文件

  3. 文件上传完成后,在下方设置参数:

    • 批量大小(秒):默认 300 秒(即 5 分钟),最长支持 600 秒
    • 识别语言:支持auto(自动检测)、zh(中文)、en(英文)、yue(粤语)、ja(日语)、ko(韩语)
  4. 点击"开始识别"按钮,等待处理完成

处理时间取决于音频长度和所用设备(GPU 更快)。一般情况下,1 分钟音频在 GPU 上仅需几秒钟即可完成。

4.3 查看识别结果

识别完成后,结果将以三个标签页形式展示:

文本结果

显示最终的纯文本内容,例如:

你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

可以直接复制粘贴到文档中使用。

详细信息

以 JSON 格式返回完整识别数据,包含每个词的时间戳、置信度等元信息,适合程序调用或进一步分析。

{ "text": "你好欢迎使用语音识别系统", "timestamp": [[0.0, 0.5], [0.5, 2.5], [2.5, 5.0]] }
时间戳

以列表形式清晰列出每一句的起止时间,格式为:

[001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

这对剪辑视频、定位关键发言非常有帮助。


5. 使用方式二:浏览器实时录音识别

除了上传文件,你还可以直接使用麦克风进行实时录音识别,特别适合做即时听写或口语练习。

5.1 开始录音

  1. 点击"麦克风录音"按钮
  2. 浏览器会弹出权限请求,点击"允许"
  3. 对着麦克风说话即可录制

注意:首次使用需授权麦克风权限,不同浏览器位置略有差异。

5.2 停止与识别

  1. 录音结束后,点击"停止录音"
  2. 系统会自动将录音数据传递给 ASR 引擎
  3. 点击"开始识别"即可获取结果

整个过程无需保存中间文件,全程在浏览器内完成,方便快捷。


6. 结果导出:支持多格式一键下载

识别完成后,你可以将结果导出为三种常用格式,满足不同用途。

6.1 导出格式说明

下载按钮输出格式适用场景
下载文本.txt纯文本记录,适合复制粘贴、整理笔记
下载 JSON.json开发者使用,可用于后续程序处理
下载 SRT.srt视频字幕文件,可导入 Premiere、剪映等软件

SRT 是最常见的字幕格式之一,结构清晰,易于编辑。

示例.srt内容:

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

6.2 文件存储路径

所有输出文件统一保存在项目目录下的outputs/文件夹中,命名规则为:

outputs/outputs_YYYYMMDDHHMMSS/

每次识别都会创建一个新的时间戳子目录,避免覆盖。例如:

outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

其中:

  • audio_001.wav是原始录音的副本
  • 其他文件分别为对应格式的结果

你可以定期清理旧文件以节省磁盘空间。


7. 高级设置与优化技巧

为了让识别效果更好,这里分享一些实用的进阶技巧。

7.1 批量大小调整

  • 默认值:300 秒(5 分钟)
  • 可调范围:60 ~ 600 秒

对于较长的音频(如讲座、会议),可以适当增加批量大小;反之,短语音则无需修改。

注意:过大的批量可能导致内存不足,尤其是在 CPU 模式下。

7.2 语言设置建议

合理选择语言可大幅提升识别准确率:

场景推荐设置
普通话对话zh
英文播客en
方言或混合语种auto
粤语访谈yue
日语课程ja

当不确定语种时,优先使用auto自动检测。

7.3 时间戳的实际用途

开启“输出时间戳”后,不仅能查看每句话的出现时间,还能实现:

  • 视频字幕精准同步
  • 快速定位某段发言(如“第3分钟提到的关键观点”)
  • 自动生成会议纪要索引

结合 SRT 导出功能,轻松完成从录音到字幕的一体化流程。


8. 常见问题与解决方案

在实际使用过程中,可能会遇到一些小问题。以下是高频问题及应对方法。

Q1:识别结果不准确怎么办?

原因分析与对策:

  • 音频质量差 → 尽量使用清晰录音,避免背景噪音
  • 语速过快或发音不清 → 适当放慢语速,吐字清晰
  • 未选择正确语言 → 根据内容选择zhauto
  • 模型未加载完全 → 点击“加载模型”重试

建议先用一段标准普通话测试,确认基础功能正常后再尝试复杂场景。

Q2:识别速度太慢?

可能原因:

  • 正在使用 CPU 模式 → 切换至 CUDA(GPU)模式
  • 音频过长 → 分段处理,每段不超过 5 分钟
  • 模型过大 → 尝试切换为 SenseVoice-Small 模型

GPU 能带来数倍的速度提升,强烈建议配备 NVIDIA 显卡用户开启 CUDA。

Q3:无法上传音频文件?

请检查以下几点:

  • 文件格式是否在支持列表中(推荐使用 MP3 或 WAV)
  • 文件大小是否超过限制(建议小于 100MB)
  • 浏览器是否异常(尝试更换 Chrome/Firefox)

部分老旧浏览器可能存在兼容性问题,建议使用最新版主流浏览器。

Q4:录音没有声音?

排查方向:

  • 浏览器是否允许麦克风权限(可在设置中查看)
  • 系统麦克风是否正常工作(可用其他录音软件测试)
  • 麦克风音量是否静音或过低

可在操作系统的声音设置中测试麦克风输入电平。

Q5:识别结果出现乱码?

通常由编码问题引起,解决办法:

  • 确保选择正确的识别语言
  • 检查音频编码格式是否标准(避免特殊编码)
  • 尝试重新导出为 UTF-8 编码的文本

绝大多数情况下,正确设置语言即可解决。

Q6:如何提高识别准确率?

综合建议如下:

  1. 使用16kHz 采样率的高质量音频
  2. 减少环境噪音(可配合降噪软件预处理)
  3. 发音清晰,避免吞音或连读
  4. 合理选择识别语言(中文选zh
  5. 开启标点恢复VAD功能

对于专业术语较多的内容,未来可通过热词功能进一步优化(当前版本暂未开放配置入口)。


9. 总结:为什么你应该试试 FunASR WebUI

经过以上详细介绍,相信你已经掌握了 FunASR WebUI 的完整使用流程。总结一下它的核心优势:

  • 开箱即用:无需编程,图形化界面操作简单
  • 本地运行:数据不出设备,保障隐私安全
  • 多格式支持:兼容常见音频类型,适配性强
  • 实时录音 + 文件识别:两种模式自由切换
  • 多格式导出:一键生成 txt、json、srt,满足多样化需求
  • 永久开源:由社区开发者维护,持续更新迭代

无论是学生做课堂笔记、记者整理采访稿,还是自媒体创作者制作视频字幕,这套工具都能帮你大幅提升工作效率。

更重要的是,它基于强大的ParaformerSenseVoice模型,中文识别能力处于行业领先水平,即使在嘈杂环境下也能保持较高准确率。

现在就动手部署起来吧!你会发现,语音转文字原来可以这么简单。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/14 0:56:48

基于位置跟踪观测器的脉振高频电压信号注入的无速度传感器控制系统

基于位置跟踪观测器的脉振高频电压信号注入的无速度传感器控制系统。工业现场里藏着不少玄学问题&#xff0c;比如电机轴后头明明没装编码器&#xff0c;工程师愣是能靠几个电压电流的波形反推出转子位置。这可不是什么读心术&#xff0c;而是脉振高频电压注入法在玩实时定位的…

作者头像 李华
网站建设 2026/3/14 1:25:34

DeepSeek-R1-Distill-Qwen-1.5B降本部署案例:GPU费用节省40%实操

DeepSeek-R1-Distill-Qwen-1.5B降本部署案例&#xff1a;GPU费用节省40%实操 你是不是也遇到过这样的问题&#xff1a;想用大模型做推理服务&#xff0c;但一上生产环境&#xff0c;GPU成本就压得喘不过气&#xff1f;尤其是7B、13B这种大参数模型&#xff0c;显存占用高、响应…

作者头像 李华
网站建设 2026/3/27 1:00:45

CubiFS分布式文件系统:从入门到核心贡献的完整成长指南

CubiFS分布式文件系统&#xff1a;从入门到核心贡献的完整成长指南 【免费下载链接】cubefs CubiFS 是一个开源的分布式文件系统&#xff0c;用于数据存储和管理&#xff0c;支持多种数据存储模型和云原生环境。 * 分布式文件系统、数据存储和管理 * 有什么特点&#xff1a;支持…

作者头像 李华
网站建设 2026/3/15 12:58:59

零基础搭建目标检测系统,用YOLOv10镜像轻松实现

零基础搭建目标检测系统&#xff0c;用YOLOv10镜像轻松实现 你是否曾为部署一个目标检测模型而折腾一整天&#xff1f;环境不兼容、依赖冲突、CUDA版本错配……这些问题让很多开发者望而却步。现在&#xff0c;这一切都变了。 随着 YOLOv10 官方镜像的发布&#xff0c;我们终…

作者头像 李华
网站建设 2026/3/25 23:46:48

现代网页媒体资源采集工具全攻略:从入门到精通

现代网页媒体资源采集工具全攻略&#xff1a;从入门到精通 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 想要轻松获取网页中的视频、音频资源吗&#xff1f;网页媒体资源嗅探工具正是你需要的利器&…

作者头像 李华