文章目录
- 37:微调
- 37-1:理论
- 37-2:代码
课程链接:https://www.bilibili.com/video/BV1Sb4y1d7CR?spm_id_from=333.788.player.switch&vd_source=ecf655ee5d145d3636627119e18132ed&p=2
37:微调
37-1:理论
标注一个数据集很贵
- ImageNet标注了一千多万张图片,但是实际使用的只有120 万张图片,类别数是1000,它算是一个比较大的数据集
- Fashion-MNIST一共有6 万张图片,类别数是10, 算是一个比较小的数据集
- 通常自己的数据集规模通常在这两者之间,大概在5 万张图片左右,类别数大概是100左右,平均下来每一类物体大概有500张图片左右
适合 ImageNet 的复杂模型可能会在自己的数据集上过拟合,另外由于训练样本有限,训练模型的准确性可能无法满足实际要求,解决以上问题有两种解决方案:
1、收集更多的数据。数据集越大越好,但是收集和标记数据可能需要大量的时间和金钱。
2、应用迁移学习(transfer leanring)。将从源数据集学到的知识迁移到目标数据集,通常来说希望在大数据集上训练好的模型能够提取到更通用的图像特征,有助于识别边缘、纹理、形状和对象组合,从而帮助提升在自己数据集上的精度,核心思想是假设模型对整个物体识别有一定的基础的情况下,不需要自己提供太大的数据集就能够获得很好的识别精度,这也是人工智能所追求的目标
网络架构
一个神经网络一般可以分为两块,一部分做特征提取,一部分做线性分类
- 假设将一张图像输入到模型中,可以认为最下面的一部分是在进行特征提取(特征抽取就是将原始像素变成容易线性分割的特征,深度学习的突破性进展就在于特征提取是可以学习的,而不用人工思考如何提供特征)
- 最后一部分就是一个全连接层和 softmax 来进行分类(可以认为是一个简单的线性分类器:Softmax 回归。
微调
- 假设在源数据集(一个比较大的数据集)上已经训练好了一个模型,模型中特征提取的部分对源数据集是有效的,那么它对目标数据集也应该是有效的。
- 最后一部分是不能直接使用的,因为标号发生了改变,所以最后一部分难以进行重用
- 微调的核心思想是:在一个比较大的源数据集上训练好的模型中用于特征提取的部分,在目标数据集上提取特征时进行重用
微调中的权重初始化
微调包括四个步骤:
- 在源数据集(例如 ImageNet 数据集)上预训练神经网络模型,即源模型(pre-train model)
- 创建一个新的神经网络模型,即目标模型。新模型的初始化不再是随机的初始化,而是复制源模型上的所有模型设计及其参数(输出层除外)。假定这些模型参数包含从源数据集中学到的知识,这些知识也将适用于目标数据集,使得新模型在一开始就能很好地提取特征;同时假设源模型的输出层与源数据集的标签密切相关,因此不在目标模型中使用该层
- 向目标模型添加输出层,其输出数是目标数据集中的类别数,然后随机初始化该层的模型参数(最后的分类部分由于标号不同,因此还是做随机初始化)
- 在目标数据集上训练目标模型。输出层将从头开始进行训练,而所有其他层的参数将根据源模型的参数进行微调
- 因为损失 Loss 是从后往前进行传递的,所以最后的分类部分训练比较快,进行随机初始化也不会有太大的影响;而前面的特征提取的部分本身已经具备很好的特征提取效果,只是根据源数据集和目标数据集的差异进行微调,可能在最开始训练的时候就已经比较接近最终的结果,所以不用做过多的训练和变动
训练
是一个目标数据集上的正常训练任务,但使用更强的正则化(如果不使用预训练模型,直接在自己的数据集上正常训练,在时间足够的情况下也是可以从随机初始化训练到完全 fitting 自己的数据集,但是可能会导致 Overfitting ,这是没有必要的,不如对预训练模型进行微调)
- 使用更小的学习率(已经比较接近最优解了,因此不需要太大的学习率)
- 使用更少的数据迭代
源数据集远远复杂于目标数据集,通常微调的效果更好
- 源数据集的类别数、图片数量、样本个数通常是目标数据集的10 倍或者 100 倍,才能达到很好的微调效果,否则微调的效果不如直接在目标数据集上进行重新训练
重用分类器权重
- 源数据集中可能也有目标数据中的标号
- 可以使用预训练好的模型分类器中对应标号对应的向量来做初始化
固定一些层
神经网络通常学习有层次的特征表示
- 低层次的特征更加通用(越低层次学习的是一些底层的细节)
- 高层次的特征则更跟数据集相关(越高层次则更加语义化)
- 可以认为越到后面和标号的关联度越大,约到前面则越低层,所以底层的特征更加通用,高层的特征和数据的关联度更大
可以固定底部一些层的参数,不参与更新(不做优化,在微调的时候不改变底层类别的权重,因为这些参数不再发生变化,所以模型的复杂度变低了,可以认为是更强的正则的效果)
- 更强的正则
通常来说,假设数据集很小,直接训练很容易过拟合的情况下,可以固定底部的一些参数不参与更新
总结
1、微调通过使用在大数据上得到的预训练好的模型来初始化目标数据集上的模型权重来完成提升精度
2、预训练模型质量很重要
3、微调通常速度更快,精度更高(可以借助在大数据集上所获得的先验知识)
4、建议尽量从微调开始训练,不要直接从目标数据集上从零开始进行训练
- 未来从原始数据集上进行训练的会越来越少,主要是学术界或者大公司在很大的数据集上进行重新训练
- 对于个人或者实际应用来讲,通常是使用微调
5、迁移学习将从源数据集中学到的知识“迁移”到目标数据集,微调迁移学习的常见技巧
6、除输出层外,目标模型从源模型中复制所有模型设计及其参数,并根据目标数据集对这些参数进行微调,但是目标模型的输出层需要从头开始训练
7、通常微调参数使用较小的学习率,而从头开始训练输出层可以使用更大的学习率
37-2:代码
importosimporttorchimporttorchvisionfromtorchimportnnfromd2limporttorchasd2l data_dir=r'D:\pycharm-code\data\hotdog'创建两个实例来分别读取训练和测试数据集中的所有图像文件。
train_imgs=torchvision.datasets.ImageFolder(os.path.join(data_dir,'train'))test_imgs=torchvision.datasets.ImageFolder(os.path.join(data_dir,'test'))下面显示了前8个正类样本图片和最后8张负类样本图片。正如所看到的,图像的大小和纵横比各有不同。
hotdogs=[train_imgs[i][0]foriinrange(8)]not_hotdogs=[train_imgs[-i-1][0]foriinrange(8)]d2l.show_images(hotdogs+not_hotdogs,2,8,scale=1.4);在训练期间,我们首先从图像中裁切随机大小和随机长宽比的区域,然后将该区域缩放为224×224输入图像。 在测试过程中,我们将图像的高度和宽度都缩放到256像素,然后裁剪中央224×224区域作为输入。 此外,对于RGB(红、绿和蓝)颜色通道,我们分别标准化每个通道。 具体而言,该通道的每个值减去该通道的平均值,然后将结果除以该通道的标准差。
RandomResizedCrop(224)(训练用):随机裁剪 + 缩放成 224×224,增加数据多样性(比如不同区域的热狗图),避免模型只记住固定位置的特征,减少过拟合。RandomHorizontalFlip()(训练用):随机水平翻转图像,同样是数据增强 —— 现实中热狗可以正放 / 反放,模型需要对这种变化不敏感。Resize([256, 256]) + CenterCrop(224)(测试用):测试时不能随机操作(否则结果不稳定),先放大到 256 再居中裁剪到 224,是 ImageNet 标准的测试预处理方式。
标准化的均值 / 方差来自 ImageNet 数据集的统计值,这么做的核心原因是:
预训练模型的 “输入分布对齐”:
你后续用的模型(比如 ResNet、VGG 等)大概率是在ImageNet 数据集上预训练的,而这些预训练模型在训练时,输入图像就是用这个均值 / 方差做的标准化。
如果你的数据不做同样的标准化,输入的像素分布和预训练时差异太大,预训练的权重就会 “失效”(模型学到的特征和新输入不匹配)。
为什么自己的数据集也要用?
这是迁移学习的要求:当你基于 ImageNet 预训练模型做 “热狗分类”(小数据集任务)时,必须保持 “数据预处理流程和预训练一致”,才能最大化复用预训练的特征提取能力。
(如果是从头训练自己的数据集,其实应该用自己数据集的均值 / 方差;但迁移学习必须对齐预训练的预处理)
# 使用RGB通道的均值和标准差,以标准化每个通道。左边是RGB通道的mean,右边是RGB通道的std(因为imagenet做了这样的标准化,)normalize=torchvision.transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.225])train_augs=torchvision.transforms.Compose([torchvision.transforms.RandomResizedCrop(224),torchvision.transforms.RandomHorizontalFlip(),torchvision.transforms.ToTensor(),normalize])test_augs=torchvision.transforms.Compose([torchvision.transforms.Resize([256,256]),torchvision.transforms.CenterCrop(224),torchvision.transforms.ToTensor(),normalize])使用在ImageNet数据集上预训练的ResNet-18作为源模型。 在这里,我们指定==pretrained=True==以自动下载预训练的模型参数。 首次使用此模型,需要连网下载。
pretrained_net = torchvision.models.resnet18(pretrained=True)预训练的源模型实例包含许多特征层和一个输出层fc。 此划分的主要目的是促进对除输出层以外所有层的模型参数进行微调。 下面给出了源模型的成员变量fc,。
pretrained_net.fc这个输出展示了源网络中分类层的结构:
Linear(in_features=512, out_features=1000, bias=True)在ResNet的全局平均汇聚层后,全连接层转换为ImageNet数据集的1000个类输出。 之后,我们构建一个新的神经网络作为目标模型。 它的定义方式与预训练源模型的定义方式相同,只是最终层中的输出数量被设置为目标数据集中的类数(而不是1000个)。
所以finetune_net.fc.in_features是512的输入,但是类别数只有2
finetune_net=torchvision.models.resnet18(pretrained=True)finetune_net.fc=nn.Linear(finetune_net.fc.in_features,2)#只对最后一层进行随机初始化nn.init.xavier_uniform_(finetune_net.fc.weight)定义了一个训练函数train_fine_tuning,该函数使用微调,因此可以多次调用。
由于模型参数是在ImageNet数据集上预训练的,并且足够好,因此通常只需要较小的学习率即可微调这些参数。
成员变量output的参数是随机初始化的,通常需要更高的学习率才能从头开始训练。 假设Trainer实例中的学习率为r,我们将成员变量output中参数的学习率设置为10r。
# 如果param_group=True,输出层中的模型参数将使用十倍的学习率,deftrain_fine_tuning(net,learning_rate,batch_size=128,num_epochs=5,param_group=True):train_iter=torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(os.path.join(data_dir,'train'),transform=train_augs),batch_size=batch_size,shuffle=True)test_iter=torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(os.path.join(data_dir,'test'),transform=test_augs),batch_size=batch_size)devices=d2l.try_all_gpus()or[torch.device('cpu')]loss=nn.CrossEntropyLoss(reduction="none")ifparam_group:params_1x=[paramforname,paraminnet.named_parameters()ifnamenotin["fc.weight","fc.bias"]]trainer=torch.optim.SGD([{'params':params_1x},{'params':net.fc.parameters(),'lr':learning_rate*10}],lr=learning_rate,weight_decay=0.001)else:trainer=torch.optim.SGD(net.parameters(),lr=learning_rate,weight_decay=0.001)d2l.train_ch13(net,train_iter,test_iter,loss,trainer,num_epochs,devices)使用较小的学习率,通过微调预训练获得的模型参数。
train_fine_tuning(finetune_net,5e-5)loss 0.177, train acc 0.932, test acc 0.943 968.4 examples/sec on [device(type='cuda', index=0), device(type='cuda', index=1)]知识补充:
微调意味着神经网络在进行不同的目标检测时,前面层的网络进行的特征提取是通用的,且越前层越通用。
当目标数据集和源数据集的内容种类相差过大(比如识别癌细胞图片,与日常图片的imagenet差别较大)时,微调的效果可能不好
目标与源数据集差不多,并且可能出现交集或包含,微调 效果可能好很多
微调属于一种迁移学习算法。
基于大规模数据集训练出的源模型是一种财产,被大公司所保密。但基于imgnet训练的模型用于学术研究还是够用的。
在微调中,为了归一化保持一致非常重要。在本节代码中的normalize里的参数是根据imgnet计算出来的