主题
理解与生成统一多模态模型:现状与未来
时间
北京时间:2025.12.17 (周三) 10:30
直播平台
微信视频号:
b站直播间:
论文信息
标题
A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges
地址
https://www.techrxiv.org/users/993777/articles/1355509-a-survey-of-unified-multimodal-understanding-and-generation-advances-and-challenges
内容介绍
从GPT-4o的惊艳亮相到Gemini的持续迭代,AI不仅能理解文本,更能看懂图像、听辨声音、创作视频,实现跨模态的联合理解与生成。这一前沿领域的核心,正是统一多模态基础模型(Unified Foundation Models, UFMs)。
然而,尽管闭源模型取得了巨大成功,开源社区在构建强大的统一模型方面仍面临诸多挑战:技术路线不统一、关键设计缺乏共识、训练策略与数据管理复杂等。
来自南京大学、中科院自动化所、北京大学的研究团队联手,参考超过750篇论文,推出《A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges》,通过对海量文献的梳理,分析当前领域的主流技术路线,构建了一个清晰的分类体系和全景式技术视图。
嘉宾
杨言,南京大学计算机学院博士二年级,主要研究领域为多模态大模型、长视频理解智能体。
主持人
李磊,香港大学PhD在读,师从孔令鹏教授和刘琦教授。研究兴趣包括多模态大语言模型与大模型可解释性,以第一作者在ICLR、CVPR、ACL、EMNLP及TASLP等会议和期刊发表多篇论文,谷歌学术引用8000+,MiMo-VL Team 核心成员。担任 ACL ARR Area Chair,曾获EMNLP 2023最佳长文奖、EMNLP Outstanding Area Chair、CVPR Highlight等奖项。
个人网站:https://lilei-nlp.github.io/
入群
欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。
NICE介绍
NICE(Nexus forIntelligenCE)是一个由全球50+位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来,我们汇聚海内外300+嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超13万关注。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform
编辑 | 宁钰成 中国科学院大学