课程内容:大模型发展概述、多模态大模型、Vision Transformer(ViT)、CLIP模型、知识蒸馏与DINO、自监督视觉学习
核心关键词:视觉大模型、多模态学习、ViT、CLIP、知识蒸馏、DINO、视觉基础模型
一、大模型时代与视觉大模型的发展背景
近年来,以ChatGPT为代表的大语言模型(LLM)迅速发展,使人工智能进入了“大模型时代”。课程首先介绍了大模型的发展历程以及从语言模型向视觉大模型扩展的发展趋势。
传统深度学习模型通常针对单一任务设计,例如:
- 图像分类
- 目标检测
- 语义分割
- 文本生成
每个任务都需要单独训练模型。
而大模型的核心思想是:
利用海量数据进行预训练,获得通用知识,再通过微调适应具体任务。
课程中介绍了目前大模型训练的基本流程:预训练(Pretraining)、监督微调(SFT)以及强化学习对齐(RLHF)。
对于语言模型而言,最基本的训练目标是预测下一个单词:
整个句子的生成概率可以表示为:
课程中同时介绍了掩码语言模型(Masked Language Model)的训练思想,即随机遮挡部分词语,再让模型恢复原始内容。
监督微调阶段则利用人工标注数据进行训练,其目标函数通常为交叉熵损失:
课程中特别介绍了奖励模型(Reward Model)以及RLHF训练机制。
奖励模型本质上学习一个评分函数:
其中:
- xxx 表示输入Prompt
- yyy 表示模型输出
- rrr 表示人类偏好评分
随后利用PPO算法不断优化策略模型。课程中给出了基于奖励模型进行参数更新的整体流程。
从这一角度来看,视觉大模型实际上继承了大语言模型的发展路线:
海量数据预训练 ↓ 通用视觉表征 ↓ 任务微调 ↓ 多模态理解这也是现代视觉基础模型(Foundation Model)的核心思想。
二、多模态大模型:连接视觉与语言
传统计算机视觉模型只能理解图像,而语言模型只能处理文本。
但现实世界的信息往往同时包含:
- 图像
- 文本
- 视频
- 语音
因此课程提出了多模态大模型(Multimodal LLM)的概念。
多模态模型的目标是:
构建统一的特征空间,使不同模态能够相互理解。
其整体结构可以表示为:
图像 ↓ 视觉编码器 ↓ 视觉特征 ↓ LLM ↓ 文本输出 文本 ↓ Tokenizer ↓ Embedding ↓ LLM ↓ 文本输出如果把图像表示为:
III
视觉编码器表示为:
fv(⋅)f_v(\cdot)fv(⋅)
则视觉特征为:
文本编码器表示为:
ft(⋅)f_t(\cdot)ft(⋅)
文本特征为:
多模态模型的目标就是让:
即同一语义内容的图像与文本在特征空间中尽可能接近。
这也是后来CLIP、BLIP以及GPT-4V等视觉语言模型的理论基础。
随着视觉编码器和语言模型不断融合,模型开始具备:
- 图像理解
- 图像描述
- 视觉问答
- 图文推理
等能力。
三、Vision Transformer(ViT):Transformer进入视觉领域
在CNN时代,视觉任务主要依赖卷积神经网络。
然而随着Transformer在自然语言处理领域取得巨大成功,研究人员开始思考:
是否可以直接利用Transformer处理图像?
课程第三部分介绍了Vision Transformer(ViT)。
ViT最重要的思想是:
将图像切分成多个Patch,并将Patch看作单词(Token)。
假设输入图像尺寸为:
H×WH\times WH×W
Patch尺寸为:
P×PP\times PP×P
则Patch数量为:
例如:
224×224图像 ↓ 16×16 Patch ↓ 14×14=196个Patch每个Patch经过线性映射:
随后加入位置编码:
最终送入Transformer Encoder。
ViT内部仍然采用Transformer中的核心Attention机制:
与CNN相比,ViT具有以下特点:
- 更容易扩展到超大规模模型
- 具备全局感受野
- 能够充分利用大规模数据
课程中指出,ViT的提出标志着视觉领域开始从CNN时代进入Transformer时代。
四、CLIP模型与视觉语言统一表征
课程第四部分介绍了CLIP(Contrastive Language-Image Pretraining)模型。
CLIP是视觉大模型发展过程中最具代表性的工作之一。
其核心思想非常简单:
利用互联网海量图文对进行对比学习。
假设:
- 图像特征为 zvz_vzv
- 文本特征为 ztz_tzt
两者之间的相似度为:
即余弦相似度。
对于匹配的图文对,希望:
s(zv,zt)s(z_v,z_t)s(zv,zt)
尽可能大。
对于不匹配样本,希望其相似度尽可能小。
CLIP训练时采用InfoNCE损失:
其中:
- siis_{ii}sii 表示正确匹配样本
- τ\tauτ 表示温度参数
经过训练后,CLIP能够实现:
- 零样本分类(Zero-shot Classification)
- 图像检索
- 文本检索
- 图文匹配
例如:
图片:猫 文本:"a photo of a cat"模型会自动计算二者相似度并完成识别。
CLIP最大的贡献在于:
首次构建了统一的视觉-语言语义空间。
这一思想后来被广泛应用于GPT-4V、LLaVA等视觉语言模型之中。
五、知识蒸馏、DINO与视觉基础模型的发展
课程最后介绍了知识蒸馏(Knowledge Distillation)与DINO自监督学习框架。
知识蒸馏的基本思想是:
用大模型指导小模型学习。
设教师模型输出为:
ptp_tpt
学生模型输出为:
psp_sps
蒸馏损失函数可表示为:
总体损失函数通常写为:
其中:
- LCEL_{CE}LCE 为监督损失
- LKDL_{KD}LKD 为蒸馏损失
知识蒸馏能够有效压缩模型规模,提高部署效率。
课程同时介绍了近年来非常重要的DINO框架。
DINO属于自监督学习方法,其训练过程不依赖人工标注。
基本思想为:
原始图像 ↓ 数据增强 ↓ Teacher Network ↓ Student Network ↓ 特征对齐其目标函数可以表示为:
通过教师网络与学生网络之间的知识迁移,模型能够自动学习图像中的语义信息。
课程最后总结了视觉大模型的发展路线:
CNN ↓ Transformer ↓ ViT ↓ CLIP ↓ 多模态大模型 ↓ 视觉基础模型从技术演进角度来看,视觉大模型已经逐渐从单纯的图像分类工具发展为具备视觉理解、语言推理、知识迁移和跨模态交互能力的通用人工智能系统。ViT解决了视觉Transformer建模问题,CLIP建立了视觉与语言的统一空间,而DINO进一步推动了自监督学习的发展。这些技术共同构成了当前视觉大模型和多模态人工智能的核心基础。