技术应用
1. CV技术的应用现状
- 工业领域:产品缺陷检测、无人车间视觉引导;
- 安防领域:人脸识别、视频监控行为分析;
- 医疗领域:医学影像诊断(如CT/MRI病灶识别);
- 消费电子:手机人脸解锁、拍照美颜、AR/VR视觉交互;
- 自动驾驶:环境感知(车道线、行人、车辆检测);
- 文娱领域:图像生成(AI绘画)、视频内容理解与推荐。
2. CNN模型识别图像中对象的流程
1. 输入层:接收预处理后的图像数据(如归一化、尺寸调整);
2. 卷积层:通过卷积核提取图像局部特征(如边缘、纹理);
3. 激活层:用ReLU等激活函数引入非线性,增强模型表达能力;
4. 池化层:对特征图下采样,减少参数并保留关键特征;
5. 全连接层:将提取的特征映射为类别概率;
6. 输出层:通过Softmax等函数输出对象的类别预测结果。
3. 残差学习的设计理念
残差学习针对深层CNN的梯度消失/爆炸和退化问题提出:
- 引入残差块,让网络学习“输入与输出的残差”而非直接学习映射,简化学习目标;
- 通过短路连接(跳跃连接),让底层特征直接传递到高层,缓解深层网络的信息丢失;
- 使超深网络(如ResNet-152)的训练成为可能,同时提升模型的拟合能力和泛化性。
课程实践补充(GPT-1与ViT的Transformer模块差异)
- GPT-1用解码器的原因:GPT-1面向NLP的生成任务(如文本续写),解码器的自回归注意力能基于前文生成后续内容,且掩码机制避免看到未来token,符合语言生成的时序逻辑。
- ViT用编码器的原因:ViT面向CV的图像分类/识别任务,编码器的自注意力可全局捕捉图像像素间的关联,无需时序约束,能更高效地对图像块进行特征建模