顶刊TPAMI 2025！北大大疆同济提出HP-Net：基于热图池化的视频行为识别新范式-洪萨配资

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

Heatmap Pooling for Action Recognition from RGB Videos

Mengyuan Liu, Jinfu Liu, Yongkang Jiang, Bin He
Peking University, DJI Technology Co., Ltd., TongJi University

支持单位：北京大学，大疆，同济大学
论文：https://arxiv.org/abs/2512.03837
代码：https://github.com/liujf69/HPNet-Action

1 HP-Net 到底解决什么问题？

缓解视频行为识别现有模态特征的缺陷：
(1) 原始视频帧背景复杂、噪声多
(2) 人体姿态信息缺失
(3) 人体热图信息冗余
(4) 基于反馈池化机制，均衡热图特征冗余和缺失

连接视频人体姿态估计和行为识别任务：
(1) 适用于受控实验、家居安防、空中无人机等环境
(2) 关键指标全面实现 SOTA 性能
(3) 支持RGB、文本、热图等多模态融合，实现多模态行为识别
(4) 与人体姿态估计正交，支持不同人体姿态估计网络
(5) 与视频人体检测正交，支持不同视频人体检测网络

2 HP-Net 源自什么动机？

在RGB视频行为识别中，一种常见的方式是获取人体姿态关节点，通过建模姿态的时空关系来实现人体行为识别。从RGB视频中估计人体姿态，存在原始RGB视频帧到离散姿态点的映射和转换，这一过程往往伴随着信息压缩和信息丢失的问题。如何合理利用姿态估计过程中产生的各种特征，例如不同阶段和不同分辨率的热图特征，是一个值得思考和探索的问题。人体热图蕴含着大量人体运动的相关细节，同时也具有大量的冗余信息。论文的作者基于反馈的思想，首先从热图中估计人体姿态关键点，接着使用估计的人体姿态点来反馈池化不同阶段和不同尺度的热图，获取鲁棒、结构简洁和信息丰富的热图池化特征，用于视频人体行为识别。相比于直接使用估计的人体姿态，基于反馈池化模块获取的热图池化特征，保留了更多关于人体运动的细节，具有更高维度的语义信息，与RGB、文本等模态具有互补性，适合用于视频行为识别等下游任务。同时，为了实现更全面和鲁棒的视频行为识别，作者提出了空间-运动协同学习模块和文本细化调制模块，将提取的热图池化特征和RGB、文本等特征进行多模态融合，实现了多模态行为识别。

3 HP-Net核心模块解读

3.1 反馈池化模块

反馈池化模块使用RGB视频帧作为输入，首先通过预训练人体姿态模型获取不同阶段和不同尺度的热图特征，接着通过的方法从热图中选取概率最高的坐标位置来估计人体姿态关键点，最后使用估计的人体姿态点来反馈池化特定范围的热图，获取鲁棒、结构简洁和信息丰富的热图池化特征。

3.2 空间-运动协同学习模块

空间-运动协同学习模块使用热图池化特征作为输入，通过转换模块形成空间特征和运动特征，接着使用三个独立的拓扑模型来分别建模原始热图池化特征，空间特征和运动特征，最后通过的方式保留空间-运动热图池化特征。空间-运动协同学习模块主要通过三个独立的拓扑模型（GCN或Transformer），来全面建模反馈池化模块获取的热图池化特征，同时设立不同的辅助损失来监督三个拓扑模型的有效训练。

3.3 文本细化调制模块

文本细化调制模块使用人体行为类别的文本作为输入，首先使用预训练文本编码器来编码文本特征，接着使用空间-运动协同学习模块获取的热图池化特征，来细化调制文本特征，从而获取人体运动信息丰富的文本特征。在具体实现上，文本细化调制模块会使用参数不共享的网络，从热图池化特征中获取缩放因子和移位因子，来动态调整文本特征。此外，作者还通过两个独立的投影层、逐通道减法和逐元素乘法来细化文本特征。最后，作者通过残差连接来融合原始文本特征，形成最终描述人体运动信息的文本特征。

3.4 多模态行为识别

在作者提出的热图池化网络中，会进行RGB视频、文本和热图池化特征的多模态融合，充分利用多种模态的优势和互补性，实现鲁棒和全面的多模态行为识别。在具体实现中，作者首先会通过视频Encoder从裁剪的人体RGB帧中提取RGB视频特征，接着会将RGB视频特征和人体运动信息丰富的文本特征进行多模态融合，获取行为识别分类得分。此外，作者使用了多流集成技术，将来自单流热图池化特征和多模态融合后的分类得分进行集成，实现了多流集成视频行为识别。

实验数据

作者在四个权威的公开视频数据集上进行了实验：NTU-RGB+D 60，NTU-RGB+D 120，UAV-Human和Toyota-Smarthome，涵盖受控实验、家居安防、空中无人机等场景，实现了全面的SOTA识别性能。

作者还探索了热图池化特征在GCN和Transformer架构建模的有效性，并与直接通过姿态估计网络、深度传感器获取的2D、3D姿态进行了公平对比，还通过T-SNE特征可视化等方法，全面论证了所提热图池化特征的有效性、泛化性和鲁棒性。

此外，作者还探索了热图池化网络在过曝、低光、遮挡等极端场景的表现性，同时展示了多流集成技术在单个样本识别和不同模态集成下的识别准确率。

相关讨论

作者创新性地回顾姿态估计和行为识别的关联，提出使用反馈池化机制来高效地获取信息丰富、鲁棒和结构简洁的热图池化特征，并与RGB、文本模态进行了有效融合，大量实验证明了热图池化网络的有效性、先进性和泛化性。作者对人体热图进行反馈池化的思想，不仅适用于视频人体行为识别任务，还可以迁移至视频人体手势识别、视频人体姿态估计等相关人体运动分析任务。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ICCV 2025 论文和代码下载
在CVer公众号后台回复：ICCV2025，即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

顶刊TPAMI 2025！北大大疆同济提出HP-Net：基于热图池化的视频行为识别新范式

Heatmap Pooling for Action Recognition from RGB Videos

1 HP-Net 到底解决什么问题？

2 HP-Net 源自什么动机？

3 HP-Net核心模块解读

3.1 反馈池化模块

3.2 空间-运动协同学习模块

3.3 文本细化调制模块

3.4 多模态行为识别

实验数据

相关讨论

Quasar实战指南：Windows系统远程高效管理方案

三大Rust UI框架终极选择指南：GPUI Component、Iced与egui深度评测

InsightFace人脸分析工具箱：如何用3行代码实现精准人脸识别？

Llama3数据冒险之旅：从文字输入到AI答案的完整揭秘

3大策略实现Apple芯片模型性能翻倍：从PyTorch到MLX的智能迁移指南

10款高颜值Zsh主题：让你的终端颜值爆表，效率翻倍！