news 2026/4/15 16:40:12

Liquid AI发布15亿参数实时语音对话模型LFM2-Audio

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Liquid AI发布15亿参数实时语音对话模型LFM2-Audio

Liquid AI发布15亿参数实时语音对话模型LFM2-Audio

【免费下载链接】LFM2-Audio-1.5B项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-Audio-1.5B

Liquid AI正式推出其首款端到端音频基础模型LFM2-Audio-1.5B,以15亿参数实现与更大规模模型相当的实时语音对话能力,标志着轻量化音频交互技术取得重要突破。

近年来,语音交互技术正从传统的"语音识别-文本处理-语音合成"三段式架构向端到端一体化模型演进。随着大语言模型技术的成熟,行业对低延迟、高自然度的实时语音对话需求日益迫切,尤其是在智能助手、车载交互、远程协作等场景。据Gartner预测,到2027年,70%的智能设备交互将通过语音完成,而实时响应能力是用户体验的关键指标。

LFM2-Audio-1.5B最显著的优势在于其端到端架构设计,无需单独的语音识别(ASR)和语音合成(TTS)组件,直接实现音频到音频的闭环处理。该模型以12亿参数的LFM2模型作为多模态主干,搭配FastConformer音频编码器和RQ-transformer音频生成器,整体参数规模控制在15亿,却实现了突破性的低延迟表现。

模型支持两种独特的生成模式:交错生成(Interleaved generation)专为实时语音对话优化,将音频生成延迟降至最低,确保流畅的交谈体验;序列生成(Sequential generation)则适用于非对话场景,可灵活切换文本和语音模态,支持语音转文字、文字转语音等任务。这种双模设计使模型能适应从智能客服到内容创作的多样化需求。

技术规格方面,LFM2-Audio-1.5B采用混合卷积+注意力机制的主干网络,配备Mimi音频令牌器(8个码本),支持32,768 tokens的上下文长度,文本词汇量65,536,音频词汇量达16,392。模型以bfloat16精度运行,在保证性能的同时优化计算效率。

性能测试显示,该模型在VoiceBench基准测试中整体得分为56.78,超越70亿参数的Moshi模型(29.51)和0.6亿参数的Mini-Omni2模型(33.49)。语音识别(WER)测试中,在LibriSpeech-clean数据集上实现2.01%的词错误率,TED-LIUM数据集上达3.56%,平均WER为7.24%,展现出优异的语音理解能力。值得注意的是,相比50亿参数的Qwen2.5-Omni-3B模型,LFM2-Audio以三分之一的参数规模实现了接近的语音交互性能,参数效率显著提升。

Liquid AI提供了便捷的开发工具链,用户可通过pip安装liquid-audio包,快速部署模型或体验Gradio演示界面。示例代码显示,开发者仅需少量代码即可构建多轮语音对话系统,支持音频与文本输入的灵活切换,大大降低了语音交互应用的开发门槛。

LFM2-Audio-1.5B的推出,代表了轻量化音频大模型的重要进展。其在保持高性能的同时实现低延迟和小体积,为边缘设备部署开辟了可能。随着实时语音交互技术的成熟,我们有望看到更自然的人机对话体验在智能音箱、可穿戴设备、车载系统等场景普及。未来,随着模型在多语言支持、情感识别等方面的进一步优化,语音交互可能真正成为人机协作的主要方式,重塑我们与智能系统的沟通模式。

Liquid AI表示,LFM2-Audio-1.5B已开放试用,并提供详细文档支持。该模型采用LFM Open License v1.0许可,平衡了技术开放与知识产权保护,可能会吸引大量开发者基于此构建创新应用,推动音频AI生态的发展。

【免费下载链接】LFM2-Audio-1.5B项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-Audio-1.5B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/6 22:40:24

终极指南:如何用Markdown快速制作专业级演示文稿

终极指南:如何用Markdown快速制作专业级演示文稿 【免费下载链接】md2pptx Markdown To PowerPoint converter 项目地址: https://gitcode.com/gh_mirrors/md/md2pptx 还在为制作PPT而头疼吗?md2pptx工具让技术文档秒变精美演示文稿,彻…

作者头像 李华
网站建设 2026/3/31 4:58:50

Step-Audio-Tokenizer:语音语义双模态编码终极方案

Step-Audio-Tokenizer:语音语义双模态编码终极方案 【免费下载链接】Step-Audio-Tokenizer 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-Tokenizer 导语:Step-Audio-Tokenizer作为Step-Audio LLM的核心组件,通过创新的双模…

作者头像 李华
网站建设 2026/4/15 11:01:29

罗技鼠标宏压枪配置终极指南:告别枪口抖动轻松吃鸡

罗技鼠标宏压枪配置终极指南:告别枪口抖动轻松吃鸡 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 还在为PUBG游戏中连射时枪口乱飘而…

作者头像 李华
网站建设 2026/4/15 10:57:00

Qwen3-VL调用火山引擎图像识别服务

Qwen3-VL 与火山引擎图像识别服务的协同实践 在智能应用日益复杂的今天,单一模型“包打天下”的时代正在悄然落幕。我们正见证一种新范式的兴起:大模型作为“大脑”负责理解、规划与决策,而专业服务则作为“感官”提供高精度感知能力。这种“…

作者头像 李华
网站建设 2026/4/15 10:59:20

WarcraftHelper:魔兽争霸III现代化改造完全手册

WarcraftHelper:魔兽争霸III现代化改造完全手册 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在忍受魔兽争霸III在新时代硬件上的种种…

作者头像 李华
网站建设 2026/4/3 5:49:05

ImageGPT-medium:探索像素级AI图像生成的强大工具

ImageGPT-medium:探索像素级AI图像生成的强大工具 【免费下载链接】imagegpt-medium 项目地址: https://ai.gitcode.com/hf_mirrors/openai/imagegpt-medium 导语:OpenAI推出的ImageGPT-medium模型以其独特的像素级预测机制,为AI图像…

作者头像 李华