news 2026/5/12 16:59:16

小米开源声音克隆大模型 OmniVoice 完整使用指南|3 秒克隆人声|支持 600 多种语言和中文方言|Apache-2.0 免费商用|整合包一键启动无需配环境|附详细安装

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小米开源声音克隆大模型 OmniVoice 完整使用指南|3 秒克隆人声|支持 600 多种语言和中文方言|Apache-2.0 免费商用|整合包一键启动无需配环境|附详细安装

小米开源的声音克隆大模型 OmniVoice,3 秒克隆人声,支持 600 多种语言,Apache-2.0 协议可免费商用,附整合包一键安装。

前段时间在群里看到有人分享小米开源了一个声音克隆的大模型,叫 OmniVoice,说是 3 秒就能克隆别人的声音,还支持 600 多种语言。当时没太当回事,后来下下来试了一下,效果确实不差,就整理了一下相关信息分享给大家。

备用下载

OmniVoice 是什么

OmniVoice 是小米 AI 实验室旗下的语音团队 k2-fsa(下一代 Kaldi 团队)于 2026 年 4 月正式对外开源的一个多语言文本转语音模型(TTS)。官方把它定位成零样本多语言语音克隆系统:给它一段 3 到 10 秒的参考音频,它就能学会这个声音的特征,用这个声音朗读任意文字,无需专门训练

模型参数量 0.8B,用 58.1 万小时开源语音数据训练而来,代码与权重托管在 GitHub 和 Hugging Face,Apache-2.0 协议,个人 / 商业免费使用

和多数 TTS 工具不同,OmniVoice 采用单阶段扩散语言模型,直接从文字映射到声学 token,减少中间环节、降低误差。

核心功能

1. 语音克隆(最核心)

上传3–10 秒参考音频 → 输入文本 → 生成同款音色语音。

  • 手机录音即可用,内置去噪,轻微噪音不影响
  • 建议:安静环境、清晰完整语句,效果更稳
  • 缺点:音频太短 / 噪音多,音色会略 “飘”

2. 语音设计(文字造声)

用文字描述生成全新音色,例如:male, elderly, low pitch, British accent

  • 支持:性别、年龄、音调、方言、口音、耳语等
  • 场景:有声书、游戏批量生成角色配音

3. 非语言符号控制(加情绪)

文本插入标签,生成带情绪语音:

  • [laughter]— 笑声
  • [sigh]— 叹气
  • [breath]— 呼吸声

4. 拼音 / 音素发音纠正(中文友好)

多音字 / 专有名词用拼音标注,解决发音不准问题。

硬件配置要求

推荐配置

  • 显卡:NVIDIA GPU,6GB 显存起步,10GB + 更稳(RTX 3090/4090/A10)
  • 系统:Linux 最佳;macOS(Apple Silicon)支持;Windows 用 WSL2 或整合包
  • 内存:≥16GB
  • 硬盘:解压后约14GB,预留空间

最低可跑

  • 4GB 显存:可跑整合包,生成速度偏慢
  • CPU:能跑但极慢(1 秒语音≈10 秒生成),仅测试用

和主流工具对比

对比项OmniVoiceCosyVoice3ElevenLabs v2GPT-SoVITS
语言覆盖646 种约 50 种约 30 种中英日少数
推理速度(RTF)0.025(快 40 倍)约 0.1云端0.3~0.5
参考音频时长3~10 秒3 秒 +注册上传5 秒 +
免费商用✅ Apache-2.0❌付费❌需确认
本地部署
中文词错率(WER)0.84%约 1.5%约 2%视模型而定
相似度高于 ElevenLabs v2较好行业标杆依赖训练

优势总结:语言覆盖最广、中文准确率高、速度最快、完全免费商用、本地可部署。

安装教程(两种方式)

方法一:整合包(新手推荐,免配环境)

下载地址

通过网盘分享的文件:OmniVoice.zip链接: https://pan.baidu.com/s/1465pTIzECb0qb-EdpPHgUg?pwd=8888 提取码: 8888

操作步骤
  1. 下载.7z压缩包,推荐 WinRAR 解压(别用系统 / 360 解压,易报错)
  2. 解压到无中文路径目录,如:D:\OmniVoice
  3. 双击一键启动.bat
  4. 首次启动自动从国内镜像(hf-mirror.com)下载模型
  5. 浏览器打开:http://127.0.0.1:8081
界面使用
  • 语音克隆:输入文本 → 上传参考音频 → 生成
  • 声音设计:切换标签 → 文字描述音色 → 生成
  • 生成后:右侧音频直接下载

方法二:源码安装(适合开发者 / 二次开发)

前置条件
  • Python ≥3.10
  • NVIDIA 显卡 + CUDA
  • 安装 uv 依赖工具
安装命令
# 1. 克隆仓库 git clone https://github.com/k2-fsa/OmniVoice.git cd OmniVoice # 2. 安装依赖(国内加速) uv sync --default-index "https://mirrors.aliyun.com/pypi/simple" # 3. 启动Web界面 uv run omnivoice-demo --ip 0.0.0.0 --port 8081
国内模型加速
export HF_ENDPOINT="https://hf-mirror.com"
命令行生成
# 语音克隆 omnivoice-infer \ --model k2-fsa/OmniVoice \ --text "这是一个测试。" \ --ref_audio ref.wav \ --ref_text "参考音频文本" \ --output output.wav # 声音设计 omnivoice-infer \ --model k2-fsa/OmniVoice \ --text "这是一个测试。" \ --instruct "male, British accent" \ --output output.wav
Python 调用示例
from omnivoice import OmniVoice import soundfile as sf import torch model = OmniVoice.from_pretrained( "k2-fsa/OmniVoice", device_map="cuda:0", # Apple Silicon用"mps" dtype=torch.float16 ) # 语音克隆 audio = model.generate( text="你好,这是测试。", ref_audio="ref.wav", ref_text="参考音频对应的文字" ) sf.write("output.wav", audio[0], 24000)

使用注意事项

  1. 参考音频:3–10 秒,过长降速、效果不增
  2. 跨语言克隆:带原生口音,属正常现象
  3. 路径规范:所有路径、文件名无中文,避免报错
  4. 方言支持:粤语zh-yue、四川话zh-sichuan
  5. 商用合规:克隆他人声音需合法授权

GitHub 地址

项目地址:https://github.com/k2-fsa/OmniVoice

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/12 16:52:50

普遍认为赠送福利越多客户留存越高,编程统计福利投入,客户留存数据过度福利,会造成客户贪婪流失率上升。

“福利投入强度与客户留存的非线性关系分析” 为主题。一、实际应用场景描述(Business Context)在 SaaS、电商、会员制平台、在线教育等商业场景中,赠送福利(优惠券、积分、试用权益、赠品等)被广泛用于:- …

作者头像 李华
网站建设 2026/5/12 16:51:37

MCP协议实战:构建巴西央行数据查询AI助手

1. 项目概述:一个为巴西开发者量身打造的代码助手最近在GitHub上看到一个挺有意思的项目,叫SidneyBissoli/bcb-br-mcp。光看名字,可能很多朋友会有点懵,这串字母组合到底意味着什么?简单来说,这是一个专门为…

作者头像 李华
网站建设 2026/5/12 16:51:37

如何在Windows上轻松安装安卓应用:免模拟器完整指南

如何在Windows上轻松安装安卓应用:免模拟器完整指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想在Windows电脑上运行安卓应用,…

作者头像 李华
网站建设 2026/5/12 16:51:36

智能代码库分析工具:从静态分析到架构洞察的工程实践

1. 项目概述:一个能“读懂”代码库的智能分析技能 最近在折腾一些遗留项目,面对动辄几十个模块、上万行代码的陌生仓库,想快速理清架构脉络、评估技术债务,总感觉无从下手。手动梳理?耗时耗力,还容易遗漏关…

作者头像 李华
网站建设 2026/5/12 16:46:41

实测Taotoken平台API调用稳定性与延迟体感观察记录

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 实测Taotoken平台API调用稳定性与延迟体感观察记录 在将大模型能力集成到生产应用时,服务的稳定性和响应延迟是开发者关…

作者头像 李华