小米开源声音克隆大模型 OmniVoice 完整使用指南｜3 秒克隆人声｜支持 600 多种语言和中文方言｜Apache-2.0 免费商用｜整合包一键启动无需配环境

小米开源的声音克隆大模型 OmniVoice，3 秒克隆人声，支持 600 多种语言，Apache-2.0 协议可免费商用，附整合包一键安装。

前段时间在群里看到有人分享小米开源了一个声音克隆的大模型，叫 OmniVoice，说是 3 秒就能克隆别人的声音，还支持 600 多种语言。当时没太当回事，后来下下来试了一下，效果确实不差，就整理了一下相关信息分享给大家。

备用下载

OmniVoice 是什么

OmniVoice 是小米 AI 实验室旗下的语音团队 k2-fsa（下一代 Kaldi 团队）于 2026 年 4 月正式对外开源的一个多语言文本转语音模型（TTS）。官方把它定位成零样本多语言语音克隆系统：给它一段 3 到 10 秒的参考音频，它就能学会这个声音的特征，用这个声音朗读任意文字，无需专门训练。

模型参数量 0.8B，用 58.1 万小时开源语音数据训练而来，代码与权重托管在 GitHub 和 Hugging Face，Apache-2.0 协议，个人 / 商业免费使用。

和多数 TTS 工具不同，OmniVoice 采用单阶段扩散语言模型，直接从文字映射到声学 token，减少中间环节、降低误差。

核心功能

1. 语音克隆（最核心）

上传3–10 秒参考音频 → 输入文本 → 生成同款音色语音。

手机录音即可用，内置去噪，轻微噪音不影响
建议：安静环境、清晰完整语句，效果更稳
缺点：音频太短 / 噪音多，音色会略 “飘”

2. 语音设计（文字造声）

用文字描述生成全新音色，例如：male, elderly, low pitch, British accent

支持：性别、年龄、音调、方言、口音、耳语等
场景：有声书、游戏批量生成角色配音

3. 非语言符号控制（加情绪）

文本插入标签，生成带情绪语音：

[laughter]— 笑声
[sigh]— 叹气
[breath]— 呼吸声

4. 拼音 / 音素发音纠正（中文友好）

多音字 / 专有名词用拼音标注，解决发音不准问题。

硬件配置要求

最低可跑

4GB 显存：可跑整合包，生成速度偏慢
CPU：能跑但极慢（1 秒语音≈10 秒生成），仅测试用

和主流工具对比

对比项	OmniVoice	CosyVoice3	ElevenLabs v2	GPT-SoVITS
语言覆盖	646 种	约 50 种	约 30 种	中英日少数
推理速度（RTF）	0.025（快 40 倍）	约 0.1	云端	0.3～0.5
参考音频时长	3～10 秒	3 秒 +	注册上传	5 秒 +
免费商用	✅ Apache-2.0	✅	❌付费	❌需确认
本地部署	✅	✅	❌	✅
中文词错率（WER）	0.84%	约 1.5%	约 2%	视模型而定
相似度	高于 ElevenLabs v2	较好	行业标杆	依赖训练

优势总结：语言覆盖最广、中文准确率高、速度最快、完全免费商用、本地可部署。

安装教程（两种方式）

方法一：整合包（新手推荐，免配环境）

下载地址

通过网盘分享的文件：OmniVoice.zip链接: https://pan.baidu.com/s/1465pTIzECb0qb-EdpPHgUg?pwd=8888 提取码: 8888

操作步骤

下载.7z压缩包，推荐 WinRAR 解压（别用系统 / 360 解压，易报错）
解压到无中文路径目录，如：D:\OmniVoice
双击一键启动.bat
首次启动自动从国内镜像（hf-mirror.com）下载模型
浏览器打开：http://127.0.0.1:8081

界面使用

语音克隆：输入文本 → 上传参考音频 → 生成
声音设计：切换标签 → 文字描述音色 → 生成
生成后：右侧音频直接下载

方法二：源码安装（适合开发者 / 二次开发）

前置条件

Python ≥3.10
NVIDIA 显卡 + CUDA
安装 uv 依赖工具

安装命令

# 1. 克隆仓库 git clone https://github.com/k2-fsa/OmniVoice.git cd OmniVoice # 2. 安装依赖（国内加速） uv sync --default-index "https://mirrors.aliyun.com/pypi/simple" # 3. 启动Web界面 uv run omnivoice-demo --ip 0.0.0.0 --port 8081

国内模型加速

export HF_ENDPOINT="https://hf-mirror.com"

命令行生成

# 语音克隆 omnivoice-infer \ --model k2-fsa/OmniVoice \ --text "这是一个测试。" \ --ref_audio ref.wav \ --ref_text "参考音频文本" \ --output output.wav # 声音设计 omnivoice-infer \ --model k2-fsa/OmniVoice \ --text "这是一个测试。" \ --instruct "male, British accent" \ --output output.wav

Python 调用示例

from omnivoice import OmniVoice import soundfile as sf import torch model = OmniVoice.from_pretrained( "k2-fsa/OmniVoice", device_map="cuda:0", # Apple Silicon用"mps" dtype=torch.float16 ) # 语音克隆 audio = model.generate( text="你好，这是测试。", ref_audio="ref.wav", ref_text="参考音频对应的文字" ) sf.write("output.wav", audio[0], 24000)