快速上手VibeVoice-1.5B语音生成模型
【免费下载链接】VibeVoice-1.5B项目地址: https://ai.gitcode.com/hf_mirrors/microsoft/VibeVoice-1.5B
VibeVoice是一个前沿的开源文本转语音模型,专为生成富有表现力的长格式多说话人对话音频(如播客)而设计。它解决了传统文本转语音系统在可扩展性、说话人一致性和自然轮换方面的重大挑战。
核心技术创新
VibeVoice的核心创新在于使用连续语音分词器(声学和语义分词器),在7.5Hz的超低帧率下运行。这些分词器在保持音频保真度的同时,显著提高了处理长序列的计算效率。VibeVoice采用下一个token扩散框架,利用大语言模型理解文本上下文和对话流程,并通过扩散头生成高保真度的声学细节。
该模型可以合成长达90分钟的语音,最多支持4个不同的说话人,超越了先前许多模型通常1-2个说话人的限制。
模型规格
| 模型 | 上下文长度 | 生成长度 | 权重 |
|---|---|---|---|
| VibeVoice-0.5B-Streaming | - | - | 即将发布 |
| VibeVoice-1.5B | 64K | ~90分钟 | 当前版本 |
| VibeVoice-Large | 32K | ~45分钟 | 已发布 |
训练技术细节
VibeVoice基于Transformer架构的大语言模型,集成了专门的声学和语义分词器以及基于扩散的解码头。
核心组件:
- LLM:基于Qwen2.5-1.5B构建
- 分词器:
- 声学分词器:基于σ-VAE变体,采用镜像对称的编码器-解码器结构
- 语义分词器:编码器镜像声学分词器的架构
- 扩散头:轻量级模块,使用去噪扩散概率模型过程
环境准备与安装
系统要求
- 操作系统:Ubuntu 20.04+ 或 Windows 10+
- Python版本:3.8-3.10
- CUDA版本:11.7/11.8
- GPU显存:建议16GB以上
模型获取方式
模型文件总大小约5-6GB,包含主模型权重、分词器和配置文件。
快速使用指南
基础代码示例
以下是使用VibeVoice生成多说话人对话音频的基础代码:
import torch from transformers import VibeVoicePipeline # 初始化管道 pipe = VibeVoicePipeline.from_pretrained( "microsoft/VibeVoice-1.5B", torch_dtype=torch.bfloat16, device_map="auto" ) # 定义对话文本 text = """ Alice: 大家好,欢迎来到今天关于人工智能的播客节目。 Yunfan: 是的,今天我们将讨论AI技术的最新发展。 Alice: 这是一个令人兴奋的时代,你不觉得吗? """ # 指定说话人名称 speaker_names = ["Alice", "Yunfan"] # 生成音频 audio_output = pipe( text=text, speaker_names=speaker_names, num_inference_steps=20, guidance_scale=3.0 ) # 保存音频文件 import soundfile as sf sf.write("output_podcast.wav", audio_output["audio"], audio_output["sampling_rate"])参数说明
num_inference_steps:扩散推理步数,影响音频质量guidance_scale:指导尺度,控制生成多样性- 采样率:24000 Hz
负责任使用指南
适用范围
VibeVoice模型仅限于研究目的使用,用于探索高度逼真的音频对话生成技术。
禁止用途
- 未经明确、记录同意的情况下进行语音模仿
- 生成虚假信息或冒充他人
- 实时或低延迟语音转换应用
- 非英语或中文语言生成
- 生成背景环境音、音效或音乐
风险与限制
尽管通过多种技术进行了优化,但模型仍可能产生意外、有偏见或不准确的输出。
主要风险:
- 深度伪造和虚假信息:高质量合成语音可能被滥用于创建虚假音频内容
- 仅支持英语和中文:其他语言的输入可能导致意外输出
- 非语音音频:模型仅专注于语音合成,不处理背景噪音、音乐或其他音效
- 重叠语音:当前模型不显式建模或生成对话中的重叠语音片段
安全措施
为减轻滥用风险,我们采取了以下措施:
- 在每个合成的音频文件中自动嵌入可听见的免责声明
- 在生成的音频中添加难以察觉的水印,以便第三方验证来源
- 记录推理请求用于滥用模式检测
使用建议
我们建议在没有进一步测试和开发的情况下,不要在商业或实际应用中使用VibeVoice。该模型仅用于研究和开发目的。请负责任地使用。
用户有责任以合法和道德的方式获取数据集,包括在使用VibeVoice之前获得适当的权利和/或匿名化数据。提醒用户注意数据隐私问题。
技术联系方式
该项目由微软研究院成员进行。我们欢迎观众的反馈和合作。如果您对我们的技术有建议、问题或观察到意外/冒犯行为,请通过VibeVoice@microsoft.com联系我们。
如果团队收到不良行为报告或独立发现问题,我们将在此存储库中更新适当的缓解措施。
【免费下载链接】VibeVoice-1.5B项目地址: https://ai.gitcode.com/hf_mirrors/microsoft/VibeVoice-1.5B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考