news 2026/6/25 19:39:01

Fun-Audio-Chat-8B 大型音频语言模型(Large Audio Language Model)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Fun-Audio-Chat-8B 大型音频语言模型(Large Audio Language Model)

Fun-Audio-Chat-8B 介绍

Fun-Audio-Chat-8B 是由 TONGYI Fun 团队开发的大型音频语言模型(Large Audio Language Model),专为自然、低延迟的语音交互设计,在语音问答、音频理解、语音函数调用等多个场景中表现优异,支持中英双语交互,采用 Apache 2.0 开源许可协议。(开源地址:https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B)

核心特性

1. 双分辨率语音表征(Dual-Resolution Speech Representations)

创新采用 “5Hz 共享骨干网络 + 25Hz 精细化头部” 架构,相比其他模型常用的 12.5Hz 或 25Hz 帧速率,在保持高语音质量的前提下,将 GPU 计算量减少近 50%,兼顾效率与性能。

2. 同尺寸模型顶尖性能

在 8B 参数级别模型中,于多个权威基准测试中排名前列,覆盖语音问答、音频理解、语音交互等核心场景,涉及的基准测试包括:

  • 语音问答(Spoken QA):OpenAudioBench、VoiceBench
  • 语音转语音(Speech-to-Speech):UltraEval-Audio
  • 音频理解(Audio Understanding):MMAU、MMAU-Pro、MMSU
  • 语音函数调用(Speech Function Calling):Speech-ACEBench、Speech-BFCL、Speech-SmartInteract
  • 语音指令遵循(Speech Instruction-Following):VStyle

3. 全面的语音交互能力

支持多样化语音相关任务,满足复杂场景需求:

  • spoken QA:语音问答,直接通过语音输入提问并获取语音 / 文本答案
  • 音频理解:解析音频内容、情感、场景等信息
  • 语音函数调用:通过语音指令触发特定功能调用
  • 语音指令遵循:精准响应语音形式的指令要求
  • 语音共情(Voice Empathy):模拟共情式语音反馈,提升交互自然度

模型详情

属性具体信息
模型尺寸约 8B 参数
架构设计双分辨率语音表征(Dual-Resolution Speech Representations)
支持语言英语(English)、中文(Chinese)
许可协议Apache 2.0(可商用、可修改,需保留原版权声明)
张量类型BF16
关联模型配套依赖 Fun-CosyVoice3-0.5B-2512 模型

环境要求

基础依赖

  • Python 版本:3.12
  • PyTorch 版本:2.8.0
  • 必要工具:ffmpeg(音频处理依赖)
  • 其他依赖:torchaudio==2.8.0 及 requirements.txt 中指定的包

硬件要求

  • 推理(Inference):GPU 显存 ≥ 24GB
  • 训练(Training):4 块 80GB 显存 GPU(如 A100 80GB)

安装与部署

1. 环境配置步骤

bash

运行

# 克隆代码仓库(含子模块)gitclone --recurse-submodules https://github.com/FunAudioLLM/Fun-Audio-ChatcdFun-Audio-Chat# 安装 ffmpegaptinstallffmpeg# 创建并激活 Conda 环境conda create -n FunAudioChatpython=3.12-y conda activate FunAudioChat# 安装 PyTorch 及 torchaudio(适配 CUDA 12.8)pipinstalltorch==2.8.0torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu128# 安装其他依赖pipinstall-r requirements.txt

2. 模型下载

支持通过 Hugging Face Hub 或 ModelScope 两种方式下载预训练模型,需同时下载主模型和配套依赖模型:

方式一:通过 Hugging Face Hub 下载

bash

运行

# 安装 huggingface-hub 工具pipinstallhuggingface-hub# 下载主模型 Fun-Audio-Chat-8Bhf download FunAudioLLM/Fun-Audio-Chat-8B --local-dir ./pretrained_models/Fun-Audio-Chat-8B# 下载配套模型 Fun-CosyVoice3-0.5B-2512hf download FunAudioLLM/Fun-CosyVoice3-0.5B-2512 --local-dir ./pretrained_models/Fun-CosyVoice3-0.5B-2512
方式二:通过 ModelScope 下载

bash

运行

# 下载主模型 Fun-Audio-Chat-8Bmodelscope download --model FunAudioLLM/Fun-Audio-Chat-8B --local_dir pretrained_models/Fun-Audio-Chat-8B# 下载配套模型 Fun-CosyVoice3-0.5B-2512modelscope download --model FunAudioLLM/Fun-CosyVoice3-0.5B-2512 --local_dir pretrained_models/Fun-CosyVoice3-0.5B-2512

3. 快速推理

配置完成后,可通过以下命令快速运行核心功能:

bash

运行

# 设置 Python 路径exportPYTHONPATH=`pwd`# 语音转文本(Speech-to-Text)python examples/infer_s2t.py# 语音转语音(Speech-to-Speech)python examples/infer_s2s.py

引用规范

若使用该模型进行学术研究或商业开发,建议引用相关论文:

bibtex

@article{funaudiochat2025, title={Fun-Audio-Chat Technical Report}, author={Qian Chen and Luyao Cheng and Chong Deng and Xiangang Li and Jiaqing Liu and Chao-Hong Tan and Wen Wang and Junhao Xu and Jieping Ye and Qinglin Zhang and Qiquan Zhang and Jingren Zhou}, year={2025}, eprint={2512.20156}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.20156}, } @misc{tan2025drvoiceparallelspeechtextvoice, title={DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations}, author={Chao-Hong Tan and Qian Chen and Wen Wang and Chong Deng and Qinglin Zhang and Luyao Cheng and Hai Yu and Xin Zhang and Xiang Lv and Tianyu Zhao and Chong Zhang and Yukun Ma and Yafeng Chen and Hui Wang and Jiaqing Liu and Xiangang Li and Jieping Ye}, year={2025}, eprint={2506.09349}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.09349}, }

相关资源

  • 论文链接:Fun-Audio-Chat Technical Report、DrVoice
  • GitHub 代码库:https://github.com/FunAudioLLM/Fun-Audio-Chat
  • Demo 页面:参考官方仓库或 Hugging Face 模型页指引
  • 依赖项目:Transformers、LlamaFactory、Moshi、CosyVoice、Safetensors
  • https://ai-bot.cn/fun-audio-chat/
  • https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 13:27:10

从零理解Open-AutoGLM核心机制,彻底搞懂AI驱动开发的底层逻辑

第一章:Open-AutoGLM沉思 在人工智能与自然语言处理快速演进的当下,Open-AutoGLM 作为一种实验性语言模型架构,引发了开发者社区对自回归生成逻辑的新一轮探讨。其核心理念在于通过轻量化结构实现高效推理,同时保留足够表达能力以…

作者头像 李华
网站建设 2026/6/23 13:21:52

完全掌握AI歌声转换:so-vits-svc终极使用指南

完全掌握AI歌声转换:so-vits-svc终极使用指南 【免费下载链接】so-vits-svc 基于vits与softvc的歌声音色转换模型 项目地址: https://gitcode.com/gh_mirrors/sovit/so-vits-svc 还在为如何实现专业级歌声转换而烦恼吗?🤔 今天我将为你…

作者头像 李华
网站建设 2026/6/23 16:40:01

3倍速AlphaFold批量处理:从手动操作到自动化流水线的终极指南

当第50个FASTA文件还在排队等待预测时,你是否想过——其实只需要一套智能流水线就能让效率提升300%?本文将为你揭示AlphaFold批量处理的效率革命,带你从繁琐的手动操作跃进到自动化流水线时代。 【免费下载链接】alphafold Open source code …

作者头像 李华
网站建设 2026/6/23 12:10:18

Open-AutoGLM究竟有多强?:3大核心能力颠覆AI开发新模式

第一章:Open-AutoGLM究竟有多强?:3大核心能力颠覆AI开发新模式Open-AutoGLM作为新一代开源AI开发框架,凭借其深度集成的自动化能力与高性能推理引擎,正在重塑开发者构建、训练和部署语言模型的方式。其三大核心能力不仅…

作者头像 李华
网站建设 2026/6/13 15:07:50

基于django深度学习的音乐推荐系统设计实现

音乐推荐系统的背景与需求传统音乐推荐系统依赖协同过滤或内容过滤,存在冷启动、数据稀疏性等问题。随着用户行为数据增长和音乐流媒体平台普及,深度学习技术能够挖掘用户偏好与音乐特征的深层关联,提升推荐精准度。Django作为高效Python Web…

作者头像 李华
网站建设 2026/6/25 19:52:10

YOLO模型训练需要多少token?我们为你精准测算

YOLO模型训练需要多少token?我们为你精准测算 在智能制造工厂的质检线上,每分钟有上千个零件飞速通过摄像头。系统必须在毫秒级内判断是否存在裂纹、缺边或污渍——这背后,往往是一个轻量却高效的YOLO模型在默默运行。而当我们把目光转向模型…

作者头像 李华