HunyuanVideo-Foley：高保真音视频同步生成模型-洪萨配资

HunyuanVideo-Foley：高保真音视频同步生成模型

在影视、游戏和短视频内容创作中，声音从来不只是“配角”。一个脚步踩在湿漉漉的石板上发出的轻响，一扇门猛然关上的回音，甚至衣物摩擦时那几乎听不见的窸窣——这些细节共同构建了观众对真实感的感知。然而，传统拟音（Foley）依赖人工录制与精细剪辑，不仅周期长、成本高，还高度依赖经验丰富的音效师。随着AI在图像和视频生成领域突飞猛进，音频与视觉内容之间的精准同步与语义一致性却依然是横亘在自动化制作前的一道技术深水区。

腾讯混元团队推出的HunyuanVideo-Foley正是为解决这一难题而来。它不是简单的“加点背景音乐”工具，而是一个能“看懂画面、听清指令、生成匹配声音”的多模态智能引擎。通过深度理解视频中的场景结构、物体运动轨迹以及物理交互逻辑，模型可自动生成环境音、动作音效乃至背景氛围音乐，实现真正意义上的“音画合一”。

🔗 演示页面与完整案例展示：https://szczesnys.github.io/hunyuanvideo-foley/

多维度突破：从感知到表达的全面进化

🎬 真实世界的复杂性，如何被“听见”？

让AI学会“听”，首先要让它先“看”得明白。HunyuanVideo-Foley 的核心能力之一，是在帧级粒度上识别出哪些动作正在发生、何时发生、发生在何处。比如一段雨中行走的视频，系统不仅要检测出人物的步伐节奏，还要判断地面材质（水泥？泥土？）、雨滴密度、伞面受击频率等隐含信息，并据此合成具有空间层次感的脚步声、雨点击打声与远处雷鸣。

这种细粒度的时空对齐并非易事。拍摄延迟、剪辑跳切、多对象重叠都会导致音画错位。为此，模型引入了基于Synchformer架构设计的时序对齐门控机制，通过可学习的时间偏移参数动态校准视觉事件与音频起始点，有效缓解异步问题。实验表明，在极端遮挡或快速运动场景下，其平均去同步误差（DeSync）低至 0.54 秒，显著优于现有方法。

⚖️ 当文本提示模糊时，该相信眼睛还是耳朵？

创作过程中，用户输入可能是精确的（如“玻璃碎裂伴随金属碰撞”），也可能是笼统的（如“增加紧张气氛”）。如果完全依赖文本引导，容易忽略画面本身的语义；若只依据视觉分析，则可能偏离创作者意图。

HunyuanVideo-Foley 提出了语义权重自适应机制，在生成过程中动态平衡文本与视觉模态的影响。例如，当提示词较为模糊时，系统自动提升视觉编码器的置信度，优先从画面中推断合理音效；而当用户提供明确关键词时，交叉注意力模块会强化该语义向量的引导作用，确保输出结果忠实于指令。这种灵活调控策略使得模型既能“自主思考”，又能“听话办事”。

更进一步，门控融合机制防止文本过度干预而导致“幻听”现象——即生成画面中并不存在的声音。这一点在影视后期尤为重要：我们不需要一个“创造性过头”的AI，而是需要一个懂得克制的专业助手。

🎵 高保真不止于“响亮”，更在于“细腻”

很多AI音频生成模型受限于低采样率（16kHz 或 22.05kHz），高频细节严重丢失，导致金属刮擦、布料摩擦、水珠滴落这类细微声音听起来像隔着一层毛玻璃。HunyuanVideo-Foley 采用自研的48kHz 高采样率音频变分自编码器（Audio VAE），支持宽频带波形重建，完整保留 20Hz–20kHz 全频段动态范围。

这套潜空间编码方案不仅提升了音质上限，也为后续扩散模型训练提供了更稳定的噪声分布基础。解码阶段支持无损逆向重构，最终输出可达专业录音棚级标准。无论是清晨树叶间的露水滑落，还是深夜走廊里鞋跟与地板的轻微摩擦，都能被真实还原。

数据驱动：百万小时级对齐语料库的构建之道

没有高质量的数据，再强大的架构也只是空中楼阁。为了支撑跨模态音画建模，团队构建了一套全自动化的TV2A（Text-Video-to-Audio）数据工程流水线，整合来自公开影视数据库、UGC平台及合成模拟环境的多源内容，最终形成覆盖超10万小时的多模态音视频语料库。

所有样本均经过严格清洗与标注：

特性	实现方式
✅ 多模态对齐	使用ASR+OCR+动作检测联合定位，确保视频帧、音频信号与文本描述三者时间严格对齐
✅ 场景多样性	覆盖室内/室外、白天/夜晚、城市/自然等百余类环境组合
✅ 动作丰富性	包含超过200种常见物理交互行为（开门、跳跃、倒水、摔跤等）
✅ 噪声清洗	深度过滤模块自动去除语音干扰、背景噪音与低质量片段

整个处理流程如下：

原始视频 → 关键帧提取 → 动作识别 → 场景分类 → 文本描述生成 → 音频分离 → 对齐校验 → 存储入库

值得一提的是，文本描述并非简单依赖字幕或ASR转录，而是结合视觉语义进行重生成。例如，仅凭“两个人争吵”无法区分是办公室争执还是街头斗殴，但通过分析服装、背景、肢体语言后，系统可生成更具判别性的提示：“两名西装男子在会议室激烈争论，桌椅挪动声不断”。

所有样本均通过自动化标注+人工抽样验证双重机制保障标签准确率 >95%，为模型泛化能力打下坚实基础。

模型架构：混合Transformer下的多模态协同

HunyuanVideo-Foley 采用一种新型混合Transformer架构，兼顾多模态联合建模与单模态精修能力，整体包含五大核心组件：

👁️ 视觉编码器（Visual Encoder）

基于预训练 ViT-Huge 架构，每秒抽取6帧关键帧特征，并通过时间插值生成连续视觉表征。额外引入光流估计辅助模块，增强对运动速度与方向的感知能力，尤其适用于奔跑、翻滚、抛掷等高速动作。

📝 文本编码器（Text Encoder）

使用 TencentPretrain-BERT-large 提取自然语言语义向量，支持复杂句式解析（如“一只猫跳上桌子并打翻杯子”）。通过注意力掩码机制屏蔽无关词汇影响，聚焦于关键动作与物体关系。

🎧 音频潜空间编码（Latent Audio Representation）

利用自研 48kHz Audio VAE 将原始波形压缩至低维潜空间，在编码过程中注入高斯噪声以提升扩散模型训练稳定性。该设计在保证音质的同时大幅降低计算开销。

⏰ 时序对齐门控（Temporal Alignment Gating）

作为连接视觉与音频的关键桥梁，该模块通过可学习的时间偏移参数动态调整音画对齐点，补偿因拍摄延迟或非线性剪辑带来的异步偏差。

🌀 多模态扩散变压器（Multimodal Diffusion Transformer）

主干网络采用双流U-Net结构变体，集成多种注意力机制：

联合注意力（Co-Attention）：建立视觉与音频潜空间间的双向交互，促进模态互补
交叉注意力（Cross-Attention）：将文本语义作为KV输入，指导生成方向
门控融合机制：防止文本过度干预，保持对真实视觉内容的尊重

模型以端到端方式训练，优化目标包括：
- L1损失（时域波形重建）
- STFT损失（频谱一致性）
- CLAP相似度（音画语义对齐）
- SyncScore（帧级同步精度）

这种多目标联合优化策略使模型在感知质量与语义一致之间取得良好平衡。

性能表现：全面领先，稳居SOTA

我们在多个权威评测集上进行了系统评估，涵盖客观指标与人类主观评分。

MovieGen-Audio-Bench 测试结果

Method	PQ ↑	PC ↓	CE ↑	CU ↑	IB ↑	DeSync ↓	CLAP ↑	MOS-Q ↑	MOS-S ↑	MOS-T ↑
FoleyGrafter	6.27	2.72	3.34	5.68	0.17	1.29	0.14	3.36±0.78	3.54±0.88	3.46±0.95
V-AURA	5.82	4.30	3.63	5.11	0.23	1.38	0.14	2.55±0.97	2.60±1.20	2.70±1.37
Frieren	5.71	2.81	3.47	5.31	0.18	1.39	0.16	2.92±0.95	2.76±1.20	2.94±1.26
MMAudio	6.17	2.84	3.59	5.62	0.27	0.80	0.35	3.58±0.84	3.63±1.00	3.47±1.03
ThinkSound	6.04	3.73	3.81	5.59	0.18	0.91	0.20	3.20±0.97	3.01±1.04	3.02±1.08
HunyuanVideo-Foley (ours)	6.59	2.74	3.88	6.13	0.35	0.74	0.33	4.14±0.68	4.12±0.77	4.15±0.75

注：PQ=Perceptual Quality, PC=Purity of Content, CE=Contextual Embedding, CU=Content Unity, IB=Inter-modality Balance, DeSync=Desynchronization Error, CLAP=Cross-modal Alignment Precision, MOS=Mechanical Turk Opinion Score

结果显示，HunyuanVideo-Foley 在感知质量（PQ）和跨模态对齐（CLAP）上优势明显，MOS三项主观评分均突破4.1，接近“良好”与“优秀”之间的临界点，意味着普通观众已难以区分AI生成与真人拟音。

Kling音频评估结果（更具挑战的真实场景）

Method	FD_PANNs ↓	FD_PASST ↓	KL ↓	IS ↑	PQ ↑	PC ↓	CE ↑	CU ↑	IB ↑	DeSync ↓	CLAP ↑
FoleyGrafter	22.30	322.63	2.47	7.08	6.05	2.91	3.28	5.44	0.22	1.23	0.22
V-AURA	33.15	474.56	3.24	5.80	5.69	3.98	3.13	4.83	0.25	0.86	0.13
Frieren	16.86	293.57	2.95	7.32	5.72	2.55	2.88	5.10	0.21	0.86	0.16
MMAudio	9.01	205.85	2.17	9.59	5.94	2.91	3.30	5.39	0.30	0.56	0.27
ThinkSound	9.92	228.68	2.39	6.86	5.78	3.23	3.12	5.11	0.22	0.67	0.22
HunyuanVideo-Foley (ours)	6.07	202.12	1.89	8.30	6.12	2.76	3.22	5.53	0.38	0.54	0.24

在极端光照、遮挡与多对象交互等复杂条件下，HunyuanVideo-Foley 展现出更强的鲁棒性。其 Frechet Distance（FD）指标显著低于竞品，说明生成音频的分布更贴近真实数据，细节还原能力尤为突出。

快速接入：开发者友好型部署方案

为了让创作者和开发者快速体验这一能力，项目已全面开源并提供多种使用方式。

系统要求

CUDA: 推荐 12.4 或 11.8 版本
Python: 3.8 及以上
GPU显存: 至少 24GB（推荐 A100/H100）
操作系统: Linux（主要支持平台），部分功能兼容 macOS

安装步骤

# 克隆代码库 git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley cd HunyuanVideo-Foley # 创建虚拟环境并安装依赖 python -m venv venv source venv/bin/activate pip install -r requirements.txt

下载模型权重

支持两种方式获取预训练模型：

方式一：Git LFS

git lfs install git clone https://huggingface.co/tencent/HunyuanVideo-Foley

方式二：Hugging Face CLI

huggingface-cli download tencent/HunyuanVideo-Foley --local-dir ./pretrained_models

使用方式：灵活适配不同需求

单个视频生成

python3 infer.py \ --model_path ./pretrained_models/hunyuanvideo-foley-xl \ --config_path ./configs/hunyuanvideo-foley-xxl.yaml \ --single_video ./examples/walking_in_rain.mp4 \ --single_prompt "light footsteps on wet pavement, distant thunder, raindrops hitting umbrella" \ --output_dir ./outputs/

批量处理（CSV输入）

准备test.csv文件：

video_path,prompt ./videos/door_slam.mp4,heavy wooden door slamming shut with echo ./videos/cat_jump.mp4,cat jumping onto table, light thud and jingle of collar

执行命令：

python3 infer.py \ --model_path ./pretrained_models/hunyuanvideo-foley-xl \ --config_path ./configs/hunyuanvideo-foley-xxl.yaml \ --csv_path assets/test.csv \ --output_dir ./batch_outputs/

启动交互式网页界面

export HIFI_FOLEY_MODEL_PATH=./pretrained_models/hunyuanvideo-foley-xl python3 gradio_app.py

启动后访问http://127.0.0.1:7860，即可上传视频、输入中英文混合提示词，实时预览生成效果。支持多轨道导出（WAV/MP3）、时间轴标记与音量调节，适合影视后期精细化操作。

应用落地：不止于技术演示

HunyuanVideo-Foley 已在多个实际业务场景中发挥价值：

行业	应用案例
🎥 影视后期	自动生成基础拟音层，减少人工录制工作量达70%
🎮 游戏开发	动态响应角色动作，实现程序化音效生成
📱 短视频平台	一键为UGC内容添加智能配乐与环境音
🤖 虚拟人交互	配合口型与肢体动作生成自然呼吸、衣物摩擦声
🎨 内容创作工具	集成至剪辑软件插件，提升创作者生产力

某头部短视频平台接入测试显示，使用该模型后，视频内容平均音效配置时间由原来的15分钟缩短至40秒，且90%以上的用户认为“音效自然、贴合画面”。

未来方向：走向更智能、更个性化的音效生态

当前版本已在音画同步与语义匹配上达到行业领先水平，但团队并未止步于此。接下来的重点优化方向包括：

支持更多语言提示输入，覆盖日语、韩语、西班牙语等主流语种；
扩展三维空间音效生成能力，支持 Ambisonics 与 Dolby Atmos 格式，满足高端影视制作需求；
引入用户反馈闭环机制，允许创作者标注偏好风格，逐步实现个性化音效建模；
轻量化部署方案，探索知识蒸馏与量化技术，推动模型向移动端与边缘设备迁移。

同时，计划开放标准化 API 接口与 SDK，助力内容平台、游戏引擎、剪辑工具快速集成智能音效能力，共建开放生态。

开放共享：推动行业发展

本项目已在 GitHub 全面开源：
🔗 GitHub - Tencent-Hunyuan/HunyuanVideo-Foley
模型权重发布于 Hugging Face：
🔗 Hugging Face - tencent/HunyuanVideo-Foley
技术报告即将上线 ArXiv，欢迎关注。

🎧 让每一帧画面都拥有属于它的声音。
HunyuanVideo-Foley —— 不只是生成声音，更是重塑视听创作的边界。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

HunyuanVideo-Foley：高保真音视频同步生成模型