SenseVoice Small语音情感识别指南｜附WebUI使用与二次开发技巧-洪萨配资

SenseVoice Small语音情感识别指南｜附WebUI使用与二次开发技巧

1. 技术背景与核心价值

随着智能语音交互场景的不断扩展，传统语音识别（ASR）已无法满足复杂语义理解的需求。用户不仅希望“听清”说了什么，更希望系统能“听懂”说话时的情绪状态和环境上下文。

SenseVoice Small 正是在这一背景下推出的轻量级音频基础模型，由 FunAudioLLM 团队研发。它在完成高精度语音转文字任务的同时，集成了语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）三大能力，实现了从“听觉感知”到“认知理解”的跃迁。

相比主流开源方案如 FastWhisper，SenseVoice Small 的优势体现在：

多模态输出：除文本外，自动标注情感标签（如 😊 开心）和事件标签（如 🎼 背景音乐）
低延迟响应：对30秒以内短音频可在1秒内完成推理，适合实时交互场景
跨语言支持：支持中文、英文、日语、韩语、粤语等多语种混合识别
本地化部署：无需联网即可运行，保障数据隐私与服务稳定性

尤其适用于客服质检、心理评估辅助、车载语音助手、内容审核等需要情绪感知能力的应用场景。

2. WebUI 使用详解

2.1 启动与访问

镜像启动后，可通过以下命令重启 WebUI 服务：

/bin/bash /root/run.sh

服务默认监听端口7860，浏览器中输入地址访问界面：

http://localhost:7860

注意：若为远程服务器，请确保防火墙开放对应端口，并通过 SSH 隧道或反向代理访问。

2.2 界面功能布局解析

整个 WebUI 分为左右两大区域，结构清晰，操作直观：

左侧操作区
🎤 上传音频或使用麦克风录音
🌐 语言选择下拉菜单
⚙️ 高级配置选项展开/收起
🚀 开始识别按钮
📝 识别结果展示框
右侧示例区
💡 提供多种预置测试音频，涵盖不同语言与情感类型
可一键加载体验，快速验证模型能力

2.3 核心使用流程

步骤一：上传或录制音频

支持两种方式输入音频：

文件上传
点击上传区域，选择本地.mp3,.wav,.m4a等常见格式文件。
麦克风实时录音
点击右侧麦克风图标 → 允许浏览器权限 → 按红点开始录音 → 再次点击停止。

建议录音时长控制在30秒以内，避免因处理时间过长影响体验。

步骤二：设置识别参数

点击🌐 语言选择下拉框，可选值包括：

选项	说明
auto	推荐！自动检测语种，适应多语言混合场景
zh	强制使用中文识别
en	英文识别
yue	粤语识别
ja	日语识别
ko	韩语识别

对于不确定语种或存在方言口音的情况，建议始终选择auto模式以获得最佳识别效果。

步骤三：执行识别并查看结果

点击🚀 开始识别后，系统将返回如下信息：

🎼😀欢迎收听本期节目，我是主持人小明。😊

该结果包含三个层次的信息：

事件标签（前缀）
🎼：背景音乐
😀：笑声
文本内容
“欢迎收听本期节目，我是主持人小明。”
情感标签（后缀）
😊：开心

这种“事件+文本+情感”的三元组表达形式，极大增强了语音内容的理解维度。

2.4 高级配置说明

点击⚙️ 配置选项可调整以下参数（一般无需修改）：

参数	默认值	作用说明
use_itn	True	是否启用逆文本正则化（数字转口语化表达）
merge_vad	True	是否合并语音活动检测（VAD）分段
batch_size_s	60	动态批处理最大时长（单位：秒）

例如，开启use_itn后，“今天是2025年3月12日”会被转换为“今天是二零二五年三月十二日”，更适合朗读场景。

3. 实际应用案例分析

3.1 客服对话质量分析

假设一段客户来电录音，识别结果如下：

📞客户您好，请问有什么可以帮您？😊 😭抱歉，我上个月的账单多扣了500块！😡 😔我们正在为您核实情况，请稍等片刻...😐

通过标签可快速提取关键信息： - 事件：电话接入（📞） - 情感变化：客服初始情绪积极（😊）→ 客户愤怒抱怨（😡）→ 客服保持中立安抚（😐）

可用于自动生成服务质量报告，标记高风险投诉会话。

3.2 视频内容智能打标

一段播客音频识别结果：

🎼欢迎来到科技早知道，我是老张。😊 今天我们聊聊AI Agent的发展趋势。🤔 👏听众朋友们反响热烈！😀 🤧咳咳…今天有点感冒，大家见谅。😷

系统自动识别出： - 背景音乐（🎼） - 观众掌声（👏） - 主持人咳嗽（🤧） - 情绪波动：兴奋 → 思考 → 开心 → 不适

可用于视频平台自动生成章节摘要、弹幕提示或健康状态预警。

4. 二次开发实战指南

4.1 API 服务启动

要进行程序化调用，需先启动内置 API 服务。进入项目目录后运行：

python api.py

并在api.py文件末尾添加以下代码以暴露外部访问：

if __name__ == "__main__": import uvicorn uvicorn.run(app, host="0.0.0.0", port=8666)

修改host="0.0.0.0"可使服务支持局域网访问，便于多设备调试。

API 文档路径：http://localhost:8666/docs

主要接口： -POST /api/v1/asr：上传音频文件进行识别 - 支持 multipart/form-data 格式提交

4.2 麦克风实时识别脚本开发

下面是一个完整的 Python 示例，实现“麦克风录音 → 保存临时文件 → 调用本地 API → 输出带情感文本”的闭环流程。

import io import time import wave import requests from tqdm import tqdm import speech_recognition as sr import re class AudioRecorder: def __init__(self, rate=16000): self.rate = rate self.recognizer = sr.Recognizer() def record(self): with sr.Microphone(sample_rate=self.rate) as source: print('请在倒计时结束前说话', flush=True) start_time = time.time() audio = None for _ in tqdm(range(20), desc="倒计时", unit="s"): try: audio = self.recognizer.listen(source, timeout=1, phrase_time_limit=15) break except sr.WaitTimeoutError: if time.time() - start_time > 20: print("未检测到语音输入") break if audio is None: print("未检测到语音输入") return None audio_data = audio.get_wav_data() return io.BytesIO(audio_data) def save_wav(self, audio_data, filename="temp_output.wav"): audio_data.seek(0) with wave.open(filename, 'wb') as wav_file: wav_file.setnchannels(1) wav_file.setsampwidth(2) wav_file.setframerate(self.rate) wav_file.writeframes(audio_data.read()) audio_data.seek(0) def run(self): audio_data = self.record() if audio_data: self.save_wav(audio_data, "temp_output.wav") return audio_data class SenseVoice: def __init__(self, api_url, emo=True): self.api_url = api_url self.emo = emo def _extract_second_bracket_content(self, raw_text): match = re.search(r'<[^<>]*><([^<>]*)>', raw_text) if match: return match.group(1) return None def _get_speech_text(self, audio_data): print('正在进行语音识别') files = [('files', ('audio.wav', audio_data, 'audio/wav'))] data = {'keys': 'audio1', 'lang': 'auto'} response = requests.post(self.api_url, files=files, data=data) if response.status_code == 200: result_json = response.json() if "result" in result_json and len(result_json["result"]) > 0: item = result_json["result"][0] text = item["text"] raw_text = item["raw_text"] if self.emo: emotion = self._extract_second_bracket_content(raw_text) if emotion: return f"{emotion}\n{text}" return text else: return "未识别到有效文本" else: return f"请求失败，状态码: {response.status_code}" def speech_to_text(self, audio_data): return self._get_speech_text(audio_data) # 使用示例 if __name__ == "__main__": recorder = AudioRecorder() audio_data = recorder.run() if audio_data: api_url = "http://localhost:8666/api/v1/asr" sense_voice = SenseVoice(api_url, emo=True) result = sense_voice.speech_to_text(audio_data) print("识别结果:\n", result)

安装依赖库

pip install SpeechRecognition PyAudio requests tqdm

运行说明

执行脚本后，进入20秒倒计时录音模式
说出内容后自动保存为temp_output.wav
调用本地 API 获取识别结果
输出包含情感标签的完整文本

适用于构建语音日记、情绪监测机器人、会议纪要生成器等个性化应用。

5. 性能优化与问题排查

5.1 提升识别准确率的实践建议

维度	最佳实践
音频质量	使用16kHz及以上采样率，优先选用WAV无损格式
环境噪声	在安静环境中录音，避免回声与多人同时讲话
语速控制	保持中等语速，避免过快导致切分错误
语言设定	明确语种时指定具体语言；模糊场景用`auto`
硬件设备	使用高质量麦克风，提升信噪比

5.2 常见问题及解决方案

问题现象	可能原因	解决方法
上传无反应	文件损坏或格式不支持	尝试转换为 WAV 格式重新上传
识别不准	背景噪音大或语速过快	优化录音环境，放慢语速
速度缓慢	音频过长或资源不足	分段处理长音频，检查 GPU 占用
情感误判	模型对细微语气敏感度有限	结合上下文人工校正，不完全依赖自动标签
API 调用失败	服务未启动或端口占用	检查`uvicorn`是否正常运行，更换端口

5.3 离线部署注意事项

首次运行会自动下载模型至缓存目录：

~/.cache/modelscope/hub/iic/

为实现离线运行，建议将iic文件夹复制到项目根目录：

cp -r ~/.cache/modelscope/hub/iic ./SenseVoice/

此后即使断网也可正常加载模型。

6. 总结

SenseVoice Small 凭借其轻量化设计、多任务融合能力和本地化部署优势，已成为当前语音情感识别领域极具实用价值的开源工具。本文系统介绍了其 WebUI 使用方法与 API 二次开发技巧，帮助开发者快速构建具备“听懂情绪”能力的智能语音应用。

核心要点回顾：

开箱即用：通过预置镜像一键部署，WebUI 界面友好，适合非技术人员快速体验。
信息丰富：输出包含事件、文本、情感三重标签，远超传统 ASR 能力边界。
易于集成：提供标准 RESTful API，结合 Python 脚本可轻松嵌入各类系统。
可定制性强：支持麦克风实时采集、批量处理、离线运行等多种工程需求。

未来随着更多开发者参与生态建设，有望在教育、医疗、金融等领域催生出更具人文关怀的 AI 应用。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

SenseVoice Small语音情感识别指南｜附WebUI使用与二次开发技巧