GAN入门实战：从像素级对抗到MNIST手写数字生成-洪萨配资

1. 这不是“高不可攀”的黑科技，而是一场像素级的猫鼠游戏

Generative Adversarial Networks（GANs）——光看这个名字，很多人第一反应是“又一个被论文包装过的概念”，或是“这玩意儿离我做PPT、写周报、修图、剪视频到底有什么关系？”其实，你每天刷短视频时看到的“一键换脸”特效，电商网站上展示的“未上身试衣”功能，甚至手机相册里自动补全的残缺照片边缘，背后都站着GANs这个沉默的推手。它不像传统机器学习那样追求“预测准确率”，而是干一件更狡猾的事：让两个神经网络在完全不看真实数据标签的情况下，靠互相欺骗、互相拆台，硬生生“编造”出以假乱真的新内容。我把这个过程理解成一场持续不断的像素级猫鼠游戏：生成器（Generator）是那个总想伪造名画的赝品画家，判别器（Discriminator）则是经验老道的鉴定专家。画家每画完一幅，专家立刻打分；画家根据打分调整笔触，专家也根据新画作更新自己的鉴伪经验——双方在对抗中同步进化，直到专家再也分不清哪幅是真迹、哪幅是赝品。这种“无监督对抗训练”的思路，彻底绕开了传统AI对海量标注数据的依赖，也让它成为少数几个能真正“创造”而非“识别”的AI模型。如果你是设计师，它能帮你批量生成风格统一的海报底图；如果你是开发者，它能为小样本场景下的缺陷检测提供合成数据；如果你只是个好奇的普通人，它就是你手机里那个能把自拍变成梵高油画的App背后的灵魂。这篇文章不堆公式、不讲证明，只用你能摸得着的逻辑、看得见的步骤、踩得实的坑，带你亲手跑通第一个GAN，看清它怎么从一团噪声里“长”出一张人脸。不需要数学博士背景，但需要你愿意把“生成器”和“判别器”当成两个有脾气、会学习、会犯错的真实角色来理解。

2. 核心设计逻辑：为什么非得是“对抗”，而不是“合作”？

2.1 传统生成模型的死结与GAN的破局点

在GAN出现之前，主流生成模型主要有两类：基于概率密度估计的（如高斯混合模型GMM、变分自编码器VAE）和基于能量函数的（如玻尔兹曼机）。它们共同的软肋在于“模糊性”。举个具体例子：你让VAE生成一张“卧室”图片，它大概率会输出一个四四方方、家具摆放规整、但所有物体边缘都像隔着一层毛玻璃的图像——床、衣柜、窗户的轮廓都存在，但细节发虚，颜色过渡生硬。这是因为VAE在训练时强制要求隐空间（latent space）必须服从标准正态分布，这个强约束就像给画家套上一副固定尺寸的手套，再灵巧的手指也做不出精细的微雕。而GAN的破局点，恰恰在于它主动放弃了对隐空间的任何数学约束。它不关心生成器内部的“想法”是否符合某种分布，只关心最终输出的像素结果能否骗过判别器。这就把问题从“如何让隐变量长得像正态分布”降维到了“如何让输出图像看起来像真的一样”。这种目标导向的极简主义，是GAN能产出锐利、高保真图像的根本原因。

2.2 对抗训练的数学本质：一个零和博弈的纳什均衡

很多人被GAN的损失函数吓退，其实它的核心思想异常朴素。我们把生成器G看作一个函数，输入是随机噪声z（比如从标准正态分布采样的一串数字），输出是假图像G(z)；判别器D则是一个二分类函数，输入一张图x，输出一个0到1之间的数，代表它判断这张图是“真实”的概率。那么，GAN的终极目标，就是让G(z)的分布p_g(x)无限逼近真实数据的分布p_data(x)。怎么衡量这个逼近程度？GAN没用复杂的统计距离，而是用了一个极其聪明的代理指标：判别器的困惑度。如果D已经练成了火眼金睛，能100%区分真假，那它对真实图的输出接近1，对假图的输出接近0，此时D的判别能力最强，但G就彻底失败了；反之，如果D对所有图都输出0.5，说明它完全懵了，分不清真假，那G就成功了。所以，整个训练过程就是在求解一个极小极大（minimax）博弈：

min_G max_D V(D, G) = E_{x~p_data}[log D(x)] + E_{z~p_z}[log(1 - D(G(z)))]

这个公式看着吓人，拆开就是两句话：

判别器D的目标（max）：让自己对真图的打分（log D(x)）尽可能高，同时对假图的打分（log(1-D(G(z)))）也尽可能高（注意这里是1减去打分，所以D(G(z))越小，log(1-D(G(z)))越大）。说白了，D想当一个“双料冠军”——既擅长认真，又擅长识假。
生成器G的目标（min）：它不直接优化图像，而是通过影响D的第二项来间接优化。当G生成的假图越来越像真图时，D(G(z))就会越来越大（比如从0.1涨到0.8），那么log(1-D(G(z)))就会从log(0.9)≈-0.045暴跌到log(0.2)≈-1.61。G要做的，就是让这个暴跌的幅度最小化，也就是让D(G(z))无限趋近于1。换句话说，G的终极KPI不是“画得像”，而是“让鉴定专家自己打脸”。

这个博弈的稳定点，就是纳什均衡：当p_g(x) = p_data(x)时，D再也无法获得任何信息优势，只能永远输出0.5，此时V(D,G) = log0.5 + log0.5 = -2log2，达到理论最小值。这就是GAN训练成功的数学信号。

2.3 为什么不能“合作”？——协同训练为何必然失败

一个很自然的疑问是：既然目标是让G生成好图，那为什么不干脆让D直接告诉G“哪里画错了”？比如，D说“这张脸的眼睛太小”，G就去调大眼睛。听起来比对抗高效多了。但实践证明，这条路走不通。根本原因在于梯度消失。在GAN的原始设定中，D的输出是一个平滑的概率值，它对G的反馈是全局性的（“整张图像像不像真图”），而不是局部性的（“左眼坐标(120,80)处像素值偏低”）。如果强行让D输出像素级误差，就等于把它变成了一个超复杂的回归模型，其训练难度和不稳定性远超当前技术。更重要的是，真实数据的分布p_data(x)是高度非线性的、多模态的（比如“猫”的图片可以是蹲着、躺着、侧脸、正脸、各种毛色），一个单一的、平滑的误差函数根本无法捕捉这种复杂结构。对抗训练的精妙之处，就在于它用一个“粗粒度”的判别信号（像/不像），驱动生成器去自发探索和重建整个数据流形（data manifold）的精细结构。这就像教一个雕塑新手，不是告诉他“鼻子要高2毫米”，而是给他一尊完美雕像让他临摹，再请一位严苛的老师不断指出“整体神韵差在哪”。前者容易陷入局部最优，后者却能逼出真正的创造力。我第一次用协同方式训练时，G很快就收敛到一个“万能灰图”——所有输出都是亮度均匀的灰色块，因为这是让D最难区分的“最安全”策略。而对抗训练虽然初期震荡剧烈，但一旦突破某个临界点，G会突然开始涌现出清晰的结构，那种从混沌到秩序的跃迁感，是其他方法给不了的。

3. 实操细节解析：从代码到像素，每一个参数都有它的脾气

3.1 框架选型：PyTorch为何是GAN新手的“防坑护盾”

在TensorFlow、JAX和PyTorch之间选一个来跑GAN，我的答案毫无悬念：PyTorch。这不是因为PyTorch有多先进，而是因为它把“可调试性”刻进了基因。GAN训练最大的噩梦是什么？不是模型不收敛，而是你根本不知道它为什么失败。是生成器崩了？是判别器太强了？还是梯度爆炸了？PyTorch的torch.autograd.grad和torch.nn.utils.clip_grad_norm_就像两把手术刀，能让你在任意节点精确地检查、截断、可视化梯度流。相比之下，TensorFlow 1.x的静态图模式下，你想看某一层的梯度，得先定义一个专门的计算图，改一次代码就得重编译一次，等你调通，天都亮了。而PyTorch的动态图（eager execution）意味着你可以在forward函数里直接print(grad.mean())，一秒定位问题。另一个关键优势是社区生态。torchvision里预置了MNIST、CIFAR-10、CelebA等经典数据集，一行代码就能加载，连数据增强（transforms.Compose）都给你配好了标准化流水线。我见过太多人在TensorFlow里花三天时间写数据读取器，最后发现是路径拼写错了。PyTorch还有一套成熟的GAN专用库torchgan，虽然我们这次不用它（为了透彻理解底层），但它里面的WassersteinGAN、SpectralNorm等高级模块，是你进阶时最可靠的脚手架。一句话总结：PyTorch不保证你一定能训出好模型，但它能保证你绝不会因为框架本身的晦涩而放弃。

3.2 数据准备：为什么MNIST是GAN的“Hello World”，以及如何亲手喂它

选择MNIST作为第一个实验对象，不是因为它简单，而是因为它精准地暴露了GAN的所有核心矛盾。28x28的单通道灰度图，数据量小（6万张训练图），类别明确（0-9十个数字），没有复杂的背景干扰。这就像学游泳先在泳池，而不是直接下海。但它的“简单”恰恰是陷阱：如果连手写数字都生成不好，那更别说人脸了。数据准备的关键，在于标准化（Normalization）。很多人直接把像素值[0,255]缩放到[0,1]，这会导致生成器的输出层（通常是tanh激活）非常痛苦，因为tanh的输出范围是[-1,1]，而[0,1]的数据会让它长期工作在饱和区，梯度几乎为零。正确的做法是缩放到[-1,1]。代码实现极其简单：

transform = transforms.Compose([ transforms.ToTensor(), # 自动将[0,255]转为[0.0,1.0] transforms.Normalize((0.5,), (0.5,)) # (mean, std)，结果 = (x - 0.5) / 0.5 = 2*x - 1 ])

这个Normalize((0.5,), (0.5,))是精髓。它把原来的[0,1]映射成了[-1,1]，完美匹配tanh的输出范围。我曾经漏掉这一步，训练了八个小时，生成器输出的全是噪点，最后发现只是因为数据没对齐激活函数的“舒适区”。另外，MNIST的ToTensor()会自动把PIL Image转为C x H x W的张量，并把数据类型从uint8提升为float32，这省去了手动类型转换的麻烦。记住：数据预处理不是可选项，它是GAN训练的基石，错一步，满盘皆输。

3.3 网络架构：DCGAN的“黄金配方”及其物理意义

Ian Goodfellow在2014年提出GAN时，用的是全连接网络，效果惨淡。直到2015年Radford等人提出DCGAN（Deep Convolutional GAN），才真正让GAN起飞。DCGAN不是什么玄学，它是一套经过千锤百炼的工程规范。我们来逐条拆解它的“黄金配方”：

判别器D的配方：

输入：28x28x1的图像（MNIST）
结构：4个卷积块（Conv2d + BatchNorm2d + LeakyReLU）
卷积核：全部使用4x4，步长（stride）为2，填充（padding）为1
输出：一个标量（Sigmoid激活）

为什么是4x4卷积核？因为28x28的图像，经过4次步长为2的卷积，尺寸会变成28→14→7→4→2（最后一次是全连接前的特征图），这个尺寸衰减节奏，恰好能让网络在浅层抓取边缘纹理，在深层整合语义结构。步长为2是关键，它实现了下采样（downsampling），替代了传统的Pooling层，避免了Pooling带来的信息丢失。LeakyReLU（斜率0.2）比普通ReLU更温和，能缓解“神经元死亡”问题——在GAN里，D如果过早地把某些特征通道判为“绝对假”，这些通道的梯度就永远为零，G也就永远学不到如何修复它们。

生成器G的配方：

输入：100维的随机噪声向量z（从标准正态分布采样）
结构：4个转置卷积块（ConvTranspose2d + BatchNorm2d + ReLU）
输出：28x28x1的图像（Tanh激活）

这里最反直觉的是转置卷积（Transposed Convolution），俗称“反卷积”。它不是卷积的逆运算，而是一种上采样（upsampling）操作。你可以把它想象成一个“放大镜”：输入一个2x2的特征图，用4x4的卷积核、步长2去“扫描”，每次扫描都在输出图上“画”一个4x4的斑块，最终得到一个7x7的图。DCGAN规定G的最后一层必须是Tanh，配合前面说的[-1,1]数据范围，确保生成图像的像素值严格落在有效区间内。BatchNorm2d在G中至关重要，它稳定了z向量到图像的非线性映射过程，让训练不再像坐过山车。没有它，G的输出要么全黑，要么全白，或者在训练中期突然崩溃。我第一次去掉G里的BatchNorm，模型在第30个epoch后就开始输出“雪花屏”，加回去，立刻恢复正常。这印证了一点：GAN不是纯数学游戏，它极度依赖工程细节的鲁棒性。

4. 完整实操流程：从零开始，亲手训练你的第一个GAN

4.1 环境搭建与依赖安装（5分钟搞定）

我们采用最轻量、最可控的方案：Python 3.9 + PyTorch 2.0 + CUDA 11.7（如果你有NVIDIA显卡）。没有GPU？没关系，CPU也能跑，只是慢一点（MNIST在CPU上约2小时/epoch）。打开终端，依次执行：

# 创建独立环境，避免污染主系统 conda create -n gan_env python=3.9 conda activate gan_env # 安装PyTorch（根据你的CUDA版本选择，此处为11.7） pip install torch==2.0.1+cu117 torchvision==0.15.2+cu117 --extra-index-url https://download.pytorch.org/whl/cu117 # 安装其他必需库 pip install numpy matplotlib tqdm

验证安装是否成功：

import torch print(torch.__version__) # 应输出 2.0.1+cu117 print(torch.cuda.is_available()) # True表示GPU可用

提示：如果torch.cuda.is_available()返回False，请检查CUDA驱动版本是否匹配。PyTorch 2.0.1要求驱动版本≥515.48.07。不要试图用旧驱动硬装，升级驱动是最省时间的方案。

4.2 核心代码实现：逐行注释，拒绝黑盒

下面是我们完整的、可直接运行的DCGAN训练脚本。我将每一行代码的功能、背后的原理、以及我踩过的坑都写在注释里：

import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms from torch.utils.data import DataLoader import numpy as np import matplotlib.pyplot as plt from tqdm import tqdm # ------------------- 1. 超参数配置：这是GAN的“方向盘” ------------------- BATCH_SIZE = 128 # 太小（32）：梯度噪声大，训练抖；太大（256）：内存爆，且D容易过拟合 Z_DIM = 100 # 噪声向量维度。100是经验值，太小（10）：生成多样性差；太大（500）：训练慢，易坍缩 LR = 0.0002 # 学习率。GAN对LR极其敏感！0.001会直接让D瞬间判假，G学不到东西 BETAS = (0.5, 0.999) # Adam优化器的beta1, beta2。0.5是DCGAN论文指定值，能稳定G的训练 NUM_EPOCHS = 50 # MNIST上，50个epoch足够看到清晰数字 DEVICE = "cuda" if torch.cuda.is_available() else "cpu" print(f"Using device: {DEVICE}") # ------------------- 2. 数据加载：标准化是生命线 ------------------- transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,)) # 关键！必须缩放到[-1,1] ]) dataset = torchvision.datasets.MNIST( root="./data", train=True, download=True, transform=transform ) dataloader = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True) # ------------------- 3. 判别器D：一个“严谨的考官” ------------------- class Discriminator(nn.Module): def __init__(self, channels_img, features_d): super(Discriminator, self).__init__() # C_in, C_out, kernel, stride, padding self.disc = nn.Sequential( # Block 1: 28x28 -> 14x14 nn.Conv2d(channels_img, features_d, kernel_size=4, stride=2, padding=1), nn.LeakyReLU(0.2), # LeakyReLU的负斜率0.2是DCGAN标配 # Block 2: 14x14 -> 7x7 nn.Conv2d(features_d, features_d * 2, kernel_size=4, stride=2, padding=1), nn.BatchNorm2d(features_d * 2), nn.LeakyReLU(0.2), # Block 3: 7x7 -> 4x4 nn.Conv2d(features_d * 2, features_d * 4, kernel_size=4, stride=2, padding=1), nn.BatchNorm2d(features_d * 4), nn.LeakyReLU(0.2), # Block 4: 4x4 -> 1x1 (全连接前的特征图) nn.Conv2d(features_d * 4, features_d * 8, kernel_size=4, stride=2, padding=1), nn.BatchNorm2d(features_d * 8), nn.LeakyReLU(0.2), # 最终输出一个标量：判别为真的概率 nn.Conv2d(features_d * 8, 1, kernel_size=4, stride=1, padding=0), nn.Sigmoid() # Sigmoid输出[0,1]，符合概率定义 ) def forward(self, x): return self.disc(x).view(-1) # 展平为(batch_size,)的向量 # ------------------- 4. 生成器G：一个“大胆的画家” ------------------- class Generator(nn.Module): def __init__(self, z_dim, channels_img, features_g): super(Generator, self).__init__() self.gen = nn.Sequential( # 输入: z (BATCH_SIZE, Z_DIM) -> 先映射到4x4x512的特征图 nn.ConvTranspose2d(z_dim, features_g * 16, kernel_size=4, stride=1, padding=0), nn.BatchNorm2d(features_g * 16), nn.ReLU(), # 4x4 -> 7x7 nn.ConvTranspose2d(features_g * 16, features_g * 8, kernel_size=4, stride=2, padding=1), nn.BatchNorm2d(features_g * 8), nn.ReLU(), # 7x7 -> 14x14 nn.ConvTranspose2d(features_g * 8, features_g * 4, kernel_size=4, stride=2, padding=1), nn.BatchNorm2d(features_g * 4), nn.ReLU(), # 14x14 -> 28x28 (输出) nn.ConvTranspose2d(features_g * 4, channels_img, kernel_size=4, stride=2, padding=1), nn.Tanh() # Tanh输出[-1,1]，与数据标准化范围严格对齐 ) def forward(self, x): # x shape: (BATCH_SIZE, Z_DIM, 1, 1) -> 需要unsqueeze两次 return self.gen(x.unsqueeze(-1).unsqueeze(-1)) # ------------------- 5. 初始化模型与优化器 ------------------- # 特征图数量，DCGAN论文推荐64 FEATURES_CRITIC = 64 FEATURES_GEN = 64 netD = Discriminator(channels_img=1, features_d=FEATURES_CRITIC).to(DEVICE) netG = Generator(z_dim=Z_DIM, channels_img=1, features_g=FEATURES_GEN).to(DEVICE) # 初始化权重：DCGAN要求所有层的权重服从正态分布，均值0，标准差0.02 def init_weights(m): if isinstance(m, (nn.Conv2d, nn.ConvTranspose2d, nn.BatchNorm2d)): nn.init.normal_(m.weight.data, 0.0, 0.02) netD.apply(init_weights) netG.apply(init_weights) # 优化器：Adam，beta1=0.5是DCGAN的灵魂参数！ optD = optim.Adam(netD.parameters(), lr=LR, betas=BETAS) optG = optim.Adam(netG.parameters(), lr=LR, betas=BETAS) # ------------------- 6. 训练循环：对抗的每一秒 ------------------- fixed_noise = torch.randn(32, Z_DIM).to(DEVICE) # 固定噪声，用于全程观察生成效果 for epoch in range(NUM_EPOCHS): loop = tqdm(dataloader, leave=True) for batch_idx, (real, _) in enumerate(loop): real = real.to(DEVICE) batch_size = real.shape[0] ### 训练判别器D ### # 生成假图 noise = torch.randn(batch_size, Z_DIM).to(DEVICE) fake = netG(noise) # D对真图的判别损失：最大化 log(D(x)) # 使用BCEWithLogitsLoss，它内部包含Sigmoid，数值更稳定 label_real = torch.ones(batch_size, device=DEVICE) label_fake = torch.zeros(batch_size, device=DEVICE) # 注意：这里用的是logits，不是probabilities，所以不加Sigmoid output_real = netD(real).view(-1) lossD_real = nn.functional.binary_cross_entropy_with_logits(output_real, label_real) # D对假图的判别损失：最大化 log(1-D(G(z))) output_fake = netD(fake.detach()).view(-1) # detach()切断G的梯度，只更新D lossD_fake = nn.functional.binary_cross_entropy_with_logits(output_fake, label_fake) lossD = (lossD_real + lossD_fake) / 2 optD.zero_grad() lossD.backward() optD.step() ### 训练生成器G（每隔n步训练一次，此处n=1）### # G的目标：最小化 log(1-D(G(z)))，等价于最大化 log(D(G(z))) # 所以我们用label_real来骗G，让它以为假图是真图 output_fake_for_g = netD(fake).view(-1) lossG = nn.functional.binary_cross_entropy_with_logits(output_fake_for_g, label_real) optG.zero_grad() lossG.backward() optG.step() # 更新进度条显示 loop.set_postfix({ "D_loss": lossD.item(), "G_loss": lossG.item(), "D(x)": output_real.mean().item(), "D(G(z))": output_fake.mean().item() }) # 每5个epoch保存一次生成效果 if (epoch + 1) % 5 == 0: with torch.no_grad(): fake = netG(fixed_noise).detach().cpu() # 反标准化：从[-1,1]转回[0,1]以便显示 fake = (fake + 1) / 2 grid = torchvision.utils.make_grid(fake, nrow=8, padding=2) plt.figure(figsize=(10, 5)) plt.imshow(grid.permute(1, 2, 0).numpy()) plt.axis("off") plt.title(f"Epoch {epoch+1}") plt.savefig(f"gan_mnist_epoch_{epoch+1}.png") plt.close()

4.3 训练过程中的关键观察点与决策树

训练不是启动脚本就完事了，你需要像一个医生一样，时刻监测模型的“生命体征”。以下是我在50次MNIST训练中总结出的实时观察决策树：

观察指标	健康状态	危险信号	应对措施
`D(x)`（D对真图的平均输出）	稳定在0.8-0.95之间	<0.5 或 >0.99	`<0.5`：D已崩溃，可能数据加载错误或归一化失败；`>0.99`：D过拟合，需增加Dropout或减小D的容量
`D(G(z))`（D对假图的平均输出）	从0.1缓慢上升至0.5左右	长期<0.1 或 >0.7	`<0.1`：G完全失败，检查G的BatchNorm和Tanh；`>0.7`：D太弱，需增大D的学习率或层数
`D_loss`vs`G_loss`	两者在0.3-0.7间小幅震荡	`D_loss`<<`G_loss`（如0.1 vs 2.0）	D碾压G，G学不到东西。立即降低D的学习率，或增加D的训练步数（如每轮训5次D，1次G）
生成图像质量	第10轮出现模糊数字轮廓，第30轮出现清晰笔画	始终是噪点/灰块/重复图案	检查噪声z的维度（Z_DIM）、G的初始化（`init_weights`）、以及`fake.detach()`是否正确放置

注意：fake.detach()是G和D训练分离的关键。如果忘记.detach()，D的梯度会反向传播到G，导致G被D的判别信号“带偏”，无法专注提升生成质量。这个bug我踩过三次，每次都要重训半天。

5. 常见问题与排查技巧实录：那些文档里不会写的血泪教训

5.1 “Mode Collapse”（模式坍缩）：为什么我的GAN只会画‘8’？

这是GAN最臭名昭著的病症。你训练了100个epoch，生成器输出的32张图里，有28张是不同角度的“8”，剩下4张是“3”，其他数字一个没有。这说明G找到了一个能稳定骗过D的“捷径”——专攻“8”这个最容易模仿的模式，放弃了探索整个数字空间。这不是代码错误，而是训练失衡的必然结果。根本原因在于D的判别过于“粗糙”。当D只关注“像不像一个数字”，而不关注“像不像一个特定的数字”时，G就会选择最“保险”的模式。

实测有效的解决方案：

Label Smoothing（标签平滑）：把D的真图标签从1.0改成0.9，假图标签从0.0改成0.1。这相当于告诉D：“别太自信，世界上没有100%确定的事”。代码只需两行：
```
label_real = torch.full((batch_size,), 0.9, device=DEVICE) # 原来是1.0 label_fake = torch.full((batch_size,), 0.1, device=DEVICE) # 原来是0.0
```
这个简单改动，让我的MNIST训练中“8”的占比从87%降到了32%，数字多样性显著提升。
Mini-batch Discrimination（小批量判别）：在D的最后一层，不直接输出一个标量，而是计算当前batch内所有假图的特征向量之间的L1距离矩阵，把这个矩阵作为额外特征输入到最后的分类层。这迫使D必须考虑“这批图是否足够多样”，而不是单张图。虽然实现稍复杂，但在CelebA人脸生成上，它能有效防止G只生成“同一张脸”的多个变体。

5.2 “Gradient Vanishing”（梯度消失）：为什么loss突然变成nan？

当你看到控制台疯狂刷出nan，或者lossD和lossG在某一轮后突变为inf，恭喜你，遇到了梯度爆炸。这在GAN里比在其他模型里更常见，因为D和G的损失函数都包含log，而log(0)是负无穷。

独家排查三步法：

第一步：检查数据。用print(torch.isnan(real).any())和print(torch.isinf(real).any())检查输入数据。如果返回True，说明数据预处理出错，比如除以了零。
第二步：检查激活函数。确保D的最后一层是Sigmoid或nn.functional.sigmoid，而不是Softmax（它会对所有输出求和，可能导致数值不稳定）。G的最后一层必须是Tanh，绝不能是Sigmoid（会把输出锁死在[0,1]，与[-1,1]数据范围冲突）。
第三步：梯度裁剪（Gradient Clipping）。这是最立竿见影的急救措施。在optD.step()和optG.step()之前，加上：
```
torch.nn.utils.clip_grad_norm_(netD.parameters(), max_norm=1.0) torch.nn.utils.clip_grad_norm_(netG.parameters(), max_norm=1.0)
```
max_norm=1.0是经验值，它会把所有参数的梯度向量长度限制在1.0以内，像给梯度装了个“安全阀”。我用这招，把原本必崩的高学习率（0.001）训练，硬生生稳住了。

5.3 “Training Oscillation”（训练震荡）：为什么D和G的loss像心电图？

你看到D_loss在0.2和0.8之间狂跳，G_loss在0.1和1.5之间抽搐，D(G(z))在0.05和0.95之间闪现。这不是bug，这是GAN在“热身”。DCGAN论文明确指出，健康的GAN训练必然伴随震荡。关键是要区分“健康震荡”和“病态震荡”。

判断标准：

健康震荡：D(x)和D(G(z))的均值在缓慢靠近0.5，且震荡幅度随epoch增加而逐渐收窄。比如第10轮，D(G(z))在0.01-0.99间跳，第30轮，它只在0.3-0.7间跳。这说明双方在动态博弈中，能力差距正在缩小。
病态震荡：D(x)长期稳定在0.99，D(G(z))长期稳定在0.01，但两者的loss却在剧烈波动。这说明D已经“学傻了”，它用一种极其复杂的方式记住了训练集，失去了泛化能力，变成了一个“死记硬背”的学生。此时，唯一的办法是重启训练，并在D中加入Dropout层（在每个LeakyReLU之后加nn.Dropout2d(0.3)）。

5.4 从MNIST到真实世界的跃迁：三个必须跨越的鸿沟

跑通MNIST只是起点。当你想用GAN生成人脸、商品图或设计稿时，会撞上三堵墙：

鸿沟一：数据量与多样性
MNIST有6万张图，而一个高质量的人脸数据集（如FFHQ）需要7万张高清图。更致命的是，MNIST的数字是“刚性”的（0就是0，1就是1），而人脸是“柔性”的（同一个人不同表情、光照、角度，都是合法的“真”）。解决方案是数据增强（Data Augmentation），但GAN的数据增强有讲究：不能用RandomRotation（会把数字转成无法识别的形状），而要用RandomHorizontalFlip（对人脸有效）或ColorJitter（调整亮度/对比度，模拟不同光照）。我处理FFHQ时，只启用了HorizontalFlip和ColorJitter(brightness=0.2, contrast=0.2)，其他增强一概不用，否则G会学到“旋转的耳朵”这种不存在的特征。

鸿沟二：分辨率与计算成本
MNIST是28x28，CelebA是128x128，FFHQ是1024x1024。分辨率每翻一倍，计算量翻四倍。强行上高分辨率，你会得到“显存不足”的红色警告。**渐进式增长（Progressive Growing）**是唯一可行的路：先训一个4x4的超低清GAN，生成模糊的“色块”；然后冻结底层，新增一层，训8x8；再新增一层，训16x16……直到1024x1024。这就像教孩子画画，先学画圆，再学画脸，最后学画神态。PGGAN论文里那张著名的“从噪声到肖像”的