Day 54 Inception 网络及其思考-洪萨配资

文章目录

Day 54 · Inception 网络及其思考
- 一、Inception 网络介绍
- - 1.1 背景与动机
  - 1.2 核心设计理念
  - 1.3 Inception 模块的组成
- 二、Inception 网络架构
- - 2.1 定义 Inception 模块
  - 2.2 特征融合方法
  - - Concat 拼接的特点：
    - 深度学习中常见的特征融合方式：
  - 2.3 InceptionNet 网络定义
  - 2.4 Inception 网络的版本演进
- 三、卷积核的变体
- - 3.1 感受野（Receptive Field）
  - 3.2 空洞卷积（Dilated Convolution）
  - 3.3 空洞卷积示例
- 四、总结

Day 54 · Inception 网络及其思考

学习目标：

理解 Inception 网络的核心设计理念

掌握多尺度特征融合的实现方法
了解特征融合的常见方式
学习卷积核变体与感受野的概念

一、Inception 网络介绍

1.1 背景与动机

Inception 网络（也称为 GoogLeNet）是 Google 团队在 2014 年提出的经典卷积神经网络架构。

参考资料：传统计算机视觉的发展史

从历史发展来看，Inception 网络实际上出现在 ResNet 之前。之所以在学习 ResNet 后再介绍它，是因为 Inception 引出了重要的特征融合和特征并行处理思想。

1.2 核心设计理念

Inception 网络的核心设计理念是“并行的多尺度融合”，具体表现为：

在同一层网络中使用多个不同大小的卷积核（如 1x1、3x3、5x5）
结合池化操作，从不同尺度提取图像特征
将这些特征进行融合
在不增加过多计算量的情况下，获得更丰富的特征表达

1.3 Inception 模块的组成

Inception 模块是 Inception 网络的基本组成单元。

关键洞察：在同样的步长下：

卷积核越小，下采样率越低，保留的图片像素越多
卷积核越大，越能捕捉像素周围的信息

一个典型的 Inception 模块包含以下四个并行分支：

分支	描述	作用
1x1 卷积分支	用于降维	减少后续卷积的计算量，同时提取局部特征
3x3 卷积分支	中等尺度卷积	捕捉中等尺度的特征
5x5 卷积分支	较大尺度卷积	捕捉较大尺度的特征
池化分支	最大/平均池化	保留图像的全局信息

二、Inception 网络架构

2.1 定义 Inception 模块

importtorchimporttorch.nnasnnclassInception(nn.Module):""" Inception 模块：实现多尺度特征并行提取与融合 该模块包含四个并行分支： - 1x1 卷积分支：降维并提取通道间特征关系 - 3x3 卷积分支：捕捉中等尺度特征 - 5x5 卷积分支：捕捉大尺度特征 - 池化分支：保留全局信息 参数: in_channels: 输入特征图的通道数 """def__init__(self,in_channels):super(Inception,self).__init__()# ========== 分支1：1x1 卷积 ==========# 作用：降维并提取通道间特征关系self.branch1x1=nn.Sequential(nn.Conv2d(in_channels,64,kernel_size=1),nn.ReLU())# ========== 分支2：3x3 卷积 ==========# 作用：先降维，再用 3x3 卷积捕捉中等尺度特征self.branch3x3=nn.Sequential(nn.Conv2d(in_channels,96,kernel_size=1),nn.ReLU(),nn.Conv2d(96,128,kernel_size=3,padding=1),nn.ReLU())# ========== 分支3：5x5 卷积 ==========# 作用：较大的感受野用于提取更全局的结构信息self.branch5x5=nn.Sequential(nn.Conv2d(in_channels,16,kernel_size=1),nn.ReLU(),nn.Conv2d(16,32,kernel_size=5,padding=2),nn.ReLU())# ========== 分支4：池化分支 ==========# 作用：通过池化操作保留全局信息并降维self.branch_pool=nn.Sequential(nn.MaxPool2d(kernel_size=3,stride=1,padding=1),nn.Conv2d(in_channels,32,kernel_size=1),nn.ReLU())defforward(self,x):""" 前向传播：并行计算四个分支并在通道维度拼接 输出通道数 = 64 + 128 + 32 + 32 = 256 """branch1x1=self.branch1x1(x)# [batch, 64, H, W]branch3x3=self.branch3x3(x)# [batch, 128, H, W]branch5x5=self.branch5x5(x)# [batch, 32, H, W]branch_pool=self.branch_pool(x)# [batch, 32, H, W]outputs=[branch1x1,branch3x3,branch5x5,branch_pool]returntorch.cat(outputs,dim=1)

维度变化：[B, C, H, W]到[B, 256, H, W]

无论输入通道数是多少，输出通道数固定为 256（64+128+32+32）。

# 测试 Inception 模块model=Inception(in_channels=64)input_tensor=torch.randn(32,64,28,28)# batch=32, channels=64, H=W=28output=model(input_tensor)print(f"输入形状:{input_tensor.shape}")print(f"输出形状:{output.shape}")# 预期: [32, 256, 28, 28]

输入形状: torch.Size([32, 64, 28, 28]) 输出形状: torch.Size([32, 256, 28, 28])

设计要点：

Inception 模块中不同的卷积核和步长最后输出同样尺寸的特征图，这是经过精心设计的：

必须保证空间尺寸对齐
才能在通道维度正确拼接（concat）

2.2 特征融合方法

Inception 模块采用Concat（拼接）的方式将不同尺度的特征融合在一起。

Concat 拼接的特点：

通道数增加
空间尺寸（H, W）保持不变
每个通道的数值保持独立，没有加法运算

深度学习中常见的特征融合方式：

1. 逐元素相加（残差连接）

output=x+self.residual_block(x)

2. 逐元素相乘（注意力机制）

attention=self.ChannelAttention(features)weighted_features=features*attention

3. 通道拼接

output=torch.cat([f1,f2],dim=1)

方法	维度变化	计算量	典型场景
concat	通道数增加	中	Inception、U-Net
逐元素相加	维度不变	低	ResNet、DenseNet 过渡层
逐元素相乘	维度不变	中（需权重）	注意力机制、门控网络
跳跃连接（concat）	通道数增加	中	U-Net、FPN
加权融合（SE-Net）	维度不变	低	通道特征重标定
空间金字塔池化（SPP）	通道数增加	中	目标检测、尺寸自适应任务

2.3 InceptionNet 网络定义

classInceptionNet(nn.Module):""" 简化版 InceptionNet：用于图像分类 网络结构： 1. 卷积层（初始特征提取） 2. Inception 模块 x 2（多尺度特征融合） 3. 全局平均池化 + 全连接层（分类输出） """def__init__(self,num_classes=10):super(InceptionNet,self).__init__()# 初始卷积层self.conv1=nn.Sequential(nn.Conv2d(3,64,kernel_size=7,stride=2,padding=3),nn.ReLU(),nn.MaxPool2d(kernel_size=3,stride=2,padding=1))# Inception 模块self.inception1=Inception(64)self.inception2=Inception(256)# 分类头self.avgpool=nn.AdaptiveAvgPool2d((1,1))self.fc=nn.Linear(256,num_classes)defforward(self,x):x=self.conv1(x)x=self.inception1(x)x=self.inception2(x)x=self.avgpool(x)x=torch.flatten(x,1)x=self.fc(x)returnx

# 测试 InceptionNetmodel=InceptionNet(num_classes=10)input_tensor=torch.randn(1,3,224,224)output=model(input_tensor)print(f"输入形状:{input_tensor.shape}")print(f"输出形状:{output.shape}")

输入形状: torch.Size([1, 3, 224, 224]) 输出形状: torch.Size([1, 10])

2.4 Inception 网络的版本演进

版本	特点
Inception v1 (GoogLeNet)	最初版本，引入 Inception 模块
Inception v2	使用 Batch Normalization
Inception v3	进一步分解卷积核
Inception v4	更深的网络结构
Inception-ResNet	引入残差连接

三、卷积核的变体

3.1 感受野（Receptive Field）

感受野是指在 CNN 中，神经元在原始输入图像上所对应的区域大小。

感受野计算示例（3x3 卷积，步长 1）：

第一层感受野 = 3x3
第二层感受野 = 5x5（计算公式：3+3-1=5）

小卷积核的优势：

减少参数量
引入更多非线性（多次经过激活函数）

3.2 空洞卷积（Dilated Convolution）

空洞卷积在卷积核元素间插入空洞，用 dilation rate (d) 控制间隔大小。

类型	描述
标准卷积（d=1）	卷积核元素紧密排列
空洞卷积（d>1）	卷积核元素间插入 d-1 个空洞

优点：

扩大感受野而不增加参数
保持空间信息（相比池化下采样）

3.3 空洞卷积示例

使用空洞卷积只需添加dilation参数：

# 空洞卷积（dilation=2）self.conv=nn.Conv2d(16,32,kernel_size=3,padding=2,dilation=2)

importtorchimporttorch.nnasnnimporttorchvisionimporttorchvision.transformsastransformsfromtorch.utils.dataimportDataLoader# 数据预处理transform=transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))])# 加载 CIFAR-10 数据集trainset=torchvision.datasets.CIFAR10(root='./data',train=True,download=True,transform=transform)trainloader=DataLoader(trainset,batch_size=128,shuffle=True)testset=torchvision.datasets.CIFAR10(root='./data',train=False,download=True,transform=transform)testloader=DataLoader(testset,batch_size=128,shuffle=False)classSimpleCNNWithDilation(nn.Module):"""包含空洞卷积的简单 CNN 模型"""def__init__(self):super(SimpleCNNWithDilation,self).__init__()self.conv1=nn.Conv2d(3,16,kernel_size=3,padding=1)# 空洞卷积，dilation=2self.conv2=nn.Conv2d(16,32,kernel_size=3,padding=2,dilation=2)self.conv3=nn.Conv2d(32,64,kernel_size=3,padding=1)self.pool=nn.MaxPool2d(2,2)self.relu=nn.ReLU()self.fc1=nn.Linear(64*8*8,256)self.fc2=nn.Linear(256,10)defforward(self,x):x=self.pool(self.relu(self.conv1(x)))x=self.pool(self.relu(self.conv2(x)))x=self.relu(self.conv3(x))x=x.view(-1,64*8*8)x=self.relu(self.fc1(x))x=self.fc2(x)returnx# 训练配置device=torch.device("cuda"iftorch.cuda.is_available()else"cpu")model=SimpleCNNWithDilation().to(device)criterion=nn.CrossEntropyLoss()optimizer=torch.optim.Adam(model.parameters(),lr=0.001)deftrain(epoch):model.train()running_loss=0.0fori,(inputs,labels)inenumerate(trainloader):inputs,labels=inputs.to(device),labels.to(device)optimizer.zero_grad()outputs=model(inputs)loss=criterion(outputs,labels)loss.backward()optimizer.step()running_loss+=loss.item()if(i+1)%100==0:print(f'Epoch:{epoch+1}, Batch:{i+1}, Loss:{running_loss/100:.3f}')running_loss=0.0deftest():model.eval()correct=0total=0withtorch.no_grad():forimages,labelsintestloader:images,labels=images.to(device),labels.to(device)outputs=model(images)_,predicted=torch.max(outputs.data,1)total+=labels.size(0)correct+=(predicted==labels).sum().item()print(f'Accuracy on test set:{100*correct/total:.2f}%')# 训练 5 个 epochforepochinrange(5):train(epoch)test()

Epoch: 1, Batch: 100, Loss: 1.835 Epoch: 1, Batch: 200, Loss: 1.508 Epoch: 1, Batch: 300, Loss: 1.399 Accuracy on test set: 54.53% Epoch: 2, Batch: 100, Loss: 1.222 Epoch: 2, Batch: 200, Loss: 1.184 Epoch: 2, Batch: 300, Loss: 1.115 Accuracy on test set: 62.45% Epoch: 3, Batch: 100, Loss: 1.020 Epoch: 3, Batch: 200, Loss: 1.008 Epoch: 3, Batch: 300, Loss: 0.986 Accuracy on test set: 65.47% Epoch: 4, Batch: 100, Loss: 0.895 Epoch: 4, Batch: 200, Loss: 0.899 Epoch: 4, Batch: 300, Loss: 0.873 Accuracy on test set: 66.70% Epoch: 5, Batch: 100, Loss: 0.788 Epoch: 5, Batch: 200, Loss: 0.783 Epoch: 5, Batch: 300, Loss: 0.796 Accuracy on test set: 70.19%

四、总结

本节要点回顾：

Inception 网络核心思想
- 并行的多尺度特征融合
- 使用不同大小的卷积核（1x1、3x3、5x5）+ 池化
- 通过 1x1 卷积降维减少计算量
特征融合方式
- Concat（通道拼接）
- 逐元素相加（残差连接）
- 逐元素相乘（注意力机制）
感受野与卷积变体
- 感受野决定了网络能"看到"的范围
- 空洞卷积可以在不增加参数的情况下扩大感受野

@浙大疏锦行