项目分享|MimicMotion：基于置信度姿态引导的高质量人体运动视频生成-洪萨配资

项目简介

MimicMotion是一款专注于高质量人体运动视频生成的可控视频生成框架，由腾讯与上海交通大学的团队合作研发，相关成果已被ICML 2025收录。

该框架能够在任意运动引导下，生成高质量且长度任意的视频。从展示的示例来看，生成的视频具有丰富的细节、良好的 temporal 平滑性以及较长的视频长度。

在版本更新方面，2024年7月1日发布了项目页面、代码、技术报告及基础模型 checkpoint，7月8日发布了更优的1.1版本模型 checkpoint，将最大视频帧数从16扩展到72，显著提升了视频质量。

创新点与核心优势

MimicMotion相比以往方法，具有多项突出的创新点和优势：

其一，采用置信度感知的姿态引导，不仅实现了时间上的平滑性，还借助大规模训练数据增强了模型的鲁棒性。这使得生成的视频在运动连贯性上表现出色，减少了画面的突兀感。

其二，基于姿态置信度的区域损失放大，大幅减轻了图像的失真问题，让生成的视频画面更保真，细节更清晰。

其三，为生成 long and smooth 的视频，提出了渐进式潜在融合策略。通过这种方式，能够在可接受的资源消耗下生成任意长度的视频，突破了以往视频生成在长度上的限制。

通过大量实验和用户研究表明，MimicMotion在多个方面相比以往方法都有显著提升。

技术原理与部署指南

技术原理概述

MimicMotion的框架围绕着实现高质量人体运动视频生成展开，其核心在于通过置信度感知的姿态引导、区域损失放大以及渐进式潜在融合策略等技术，解决视频生成中可控性、视频长度、细节丰富度等问题。这些技术相互配合，共同提升了视频生成的质量和性能。

环境搭建

推荐使用Python 3+和PyTorch 2.x，已在Nvidia V100 GPU上验证。可通过以下命令安装依赖：

conda env create -f environment.yaml conda activate mimicmotion

权重下载

若连接Hugging Face存在问题，可设置环境变量export HF_ENDPOINT=https://hf-mirror.com。具体下载步骤如下：

下载DWPose预训练模型：

mkdir -p models/DWPose wget https://huggingface.co/yzd-v/DWPose/resolve/main/yolox_l.onnx?download=true -O models/DWPose/yolox_l.onnx wget https://huggingface.co/yzd-v/DWPose/resolve/main/dw-ll_ucoco_384.onnx?download=true -O models/DWPose/dw-ll_ucoco_384.onnx

从Huggingface下载MimicMotion的预训练checkpoint：

wget -P models/ https://huggingface.co/tencent/MimicMotion/resolve/main/MimicMotion_1-1.pth

SVD模型stabilityai/stable-video-diffusion-img2vid-xt-1-1会自动下载。

最终权重应按如下结构组织：

models/ ├── DWPose │ ├── dw-ll_ucoco_384.onnx │ └── yolox_l.onnx └── MimicMotion_1-1.pth

模型推理

提供了test.yaml作为测试的示例配置，可根据需求修改。运行以下命令进行推理：

python inference.py --inference_config configs/test.yaml

若GPU内存有限，可尝试设置环境变量PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:256。

显存需求与运行时间

35秒的演示视频，72帧模型需要16GB显存（4060ti），在4090 GPU上需20分钟完成。16帧U-Net模型最低显存需求为8GB，但VAE解码器需要16GB，也可选择在CPU上运行VAE解码器。

该项目及相关内容已在AladdinEdu课题广场同步发布，欢迎前往了解更多技术实现与资源!

项目地址：AladdinEdu课题广场

视觉智能的巅峰对决：Nano Banana 的“奢侈”与豆包大模型的“普惠”之选

新钛云服已累计为您分享875篇技术干货全球视觉智能新浪潮—“香蕉风暴”与国内视觉大模型的较量在AI内容生成领域，一场关于“视觉天花板”的竞赛正愈演愈烈。近期，一款以“Nano Banana”为代号的模型以前所未有的姿态迅速在社区崛起，其官方身…

李华

FaceFusion镜像内置预训练模型列表及适用场景说明

FaceFusion镜像内置预训练模型解析与应用实践在短视频内容爆炸式增长的今天，AI换脸技术早已从实验室走向大众创作工具。无论是影视特效、老照片修复，还是社交媒体上的趣味视频生成，背后都离不开一套高效、稳定的人脸处理流水线。FaceFusion正…

李华

grex如何成为6G协议开发的强力助手？5个实战场景解析

在6G通信协议开发中，你是否曾为编写复杂的正则表达式而头疼？🤔 面对动态频谱管理、网络切片标识等新型需求，传统的手工编写方式显得力不从心。今天，让我们通过5个具体场景，看看grex这个智能正则表达式生成工…

李华

爽爆了，200套简历模板免费下载

前言：简历模板200套免费送，免费简历讨论阅读文本大概需要 2 分钟。很多时候本想有很多机会与更多的同学互助，往往交集不得，简历也算是与大家建立一个连接的方式，200套建立模板免费送，直接下载，随…

李华

如何快速掌握React Native Elements：新手完全指南

如何快速掌握React Native Elements：新手完全指南【免费下载链接】react-native-elements Cross-Platform React Native UI Toolkit 项目地址: https://gitcode.com/gh_mirrors/re/react-native-elements React Native UI组件库是现代移动应用开发的重要工具…

李华

3步搭建LuCI离线开发环境：从零开始构建OpenWrt管理界面

你是否曾经在无网络环境下为OpenWrt设备开发Web管理界面而苦恼？LuCI作为OpenWrt的官方配置界面，提供了强大的扩展能力和灵活的架构设计。本文将为你揭示在断网情况下如何快速搭建完整的LuCI开发环境，让你能够高效进行应用开发、模块定制和界面…

李华