Person_reID test.py 源码解析与特征提取-洪萨配资

Person_reID test.py 源码解析与特征提取

在行人重识别（Person Re-ID）的实际应用中，模型训练只是第一步。真正决定系统性能的关键环节是测试阶段的特征提取与匹配能力。当一个训练好的模型投入评估时，test.py脚本就成为连接训练成果与实际指标之间的桥梁——它负责将 query 和 gallery 图像转化为高维特征向量，并为后续的检索排序提供数据基础。

本文基于PyTorch-CUDA-v2.8 镜像环境，深入剖析test.py的核心逻辑。不同于简单的代码走读，我们将从工程实践的角度出发，探讨如何高效地完成多尺度推理、特征归一化、元信息提取以及结果保存等关键步骤。这套流程不仅适用于 Market-1501 这类标准数据集，在真实场景部署中也同样具有指导意义。

开发环境：为什么选择 PyTorch-CUDA 镜像？

深度学习项目的可复现性和部署效率，很大程度上取决于开发环境的一致性。手动配置 PyTorch + CUDA + cuDNN 的过程往往耗时且容易出错，尤其是在多卡服务器或远程集群上。

而PyTorch-CUDA 基础镜像则解决了这一痛点。该镜像预装了 PyTorch 2.8 及其配套组件（torchvision、torchaudio），并完整集成 CUDA 12.x 工具链，支持主流 NVIDIA 显卡如 A100、V100、RTX 30/40 系列。更重要的是，它默认启用了 GPU 加速机制，无需额外配置即可调用torch.cuda进行张量运算。

除了命令行支持外，镜像还内置 JupyterLab 和 SSH 访问功能：

JupyterLab适合交互式调试和可视化分析，尤其方便研究人员快速验证想法；
SSH 登录则更适合批量任务调度和自动化脚本执行。

这种“开箱即用”的设计理念极大降低了技术门槛，让开发者可以专注于算法本身而非环境问题。

启动内核后选择pytorch-cuda环境，即可直接使用 GPU 资源进行推理加速。

对于需要长期运行的大规模测试任务，推荐通过 SSH 方式连接服务器：

ssh username@server_ip -p port

随后执行测试脚本：

python test.py --gpu_ids 0,1 --batchsize 64 --data_dir ./dataset/Market-1501/

得益于 PyTorch 对 DataParallel 和 DistributedDataParallel 的良好支持，系统会自动分配可用 GPU 设备，充分利用多卡并行能力提升推理吞吐量。

模型加载与数据准备：构建完整的推理流水线

任何有效的推理流程都始于两个基本要素：模型结构和测试数据。test.py的首要任务就是正确加载这两部分资源。

以常见的 ResNet50-based ft_net 为例，其分类头输出维度通常设置为 751（对应 Market-1501 中的身份数量）。但在测试阶段，我们并不关心最后的分类层输出，而是关注全局平均池化层之后的特征表示（一般为 512 维）。

如何安全加载训练权重？

from model import ft_net import torch # 定义网络结构 model_structure = ft_net(num_classes=751) # 移动到 GPU model = model_structure.cuda() # 加载权重 state_dict = torch.load('weights/ft_ResNet50_market.pth') model.load_state_dict(state_dict) model.eval() # 关键！关闭 Dropout 和 BatchNorm 的训练行为

这里有几个容易被忽视但至关重要的细节：

必须先调用.cuda()再加载权重，否则参数仍停留在 CPU 上；
即使模型只用于推理，也必须显式调用model.eval()，否则 BatchNorm 层的行为会导致特征分布偏移；
若使用多卡训练保存的模型（如 DDP），可能需先去除module.前缀，可通过以下方式处理：

from collections import OrderedDict new_state_dict = OrderedDict() for k, v in state_dict.items(): name = k[7:] if k.startswith('module.') else k # 去除 module. new_state_dict[name] = v model.load_state_dict(new_state_dict)

数据预处理：统一输入规范

Re-ID 模型对输入图像尺寸有严格要求，常见设定为(256, 128)。为了保证一致性，需使用torchvision.transforms对原始图像进行标准化处理：

from torchvision import transforms, datasets from torch.utils.data import DataLoader import os data_transforms = transforms.Compose([ transforms.Resize((256, 128), interpolation=3), # 使用 bicubic 插值 transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) # ImageNet 标准化 ])

其中：
-interpolation=3表示采用 bicubic 插值，在放大图像时能保留更多细节；
- Normalize 参数来源于 ImageNet 统计值，已成为视觉任务的事实标准。

接着构建 gallery 与 query 数据集：

data_dir = './dataset/Market-1501' image_datasets = { x: datasets.ImageFolder(os.path.join(data_dir, x), data_transforms) for x in ['gallery', 'query'] } dataloaders = { x: DataLoader(image_datasets[x], batch_size=64, shuffle=False, num_workers=4, pin_memory=True) for x in ['gallery', 'query'] }

几个优化点值得注意：
-shuffle=False：确保图像顺序不变，便于后续与文件名一一对应；
-pin_memory=True：将数据提前固定在 pinned memory 中，加快从 CPU 到 GPU 的传输速度；
-num_workers=4：启用多线程读取图像，有效缓解 I/O 瓶颈。

特征提取的核心：extract_feature 函数详解

真正的“重头戏”在于extract_feature()函数——它是整个测试流程中最核心的部分，直接影响最终的检索精度。

def extract_feature(model, dataloader, ms=[1]): features = torch.FloatTensor().cuda() labels = [] count = 0 with torch.no_grad(): # 推理阶段禁用梯度计算 for img, label in dataloader: n, c, h, w = img.size() count += n print(f"Processing batch, total images: {count}") ff = torch.zeros(n, 512).cuda() # 初始化特征累加器 for scale in ms: if scale != 1: scaled_img = nn.functional.interpolate( img, scale_factor=scale, mode='bicubic', align_corners=False ) else: scaled_img = img input_img = scaled_img.cuda() # 原图前向传播 outputs = model(input_img) ff += outputs # 水平翻转增强 flipped_img = fliplr(scaled_img) outputs_flip = model(flipped_img) ff += outputs_flip # L2 归一化 fnorm = torch.norm(ff, p=2, dim=1, keepdim=True) ff = ff.div(fnorm.expand_as(ff)) features = torch.cat((features, ff), dim=0) labels.extend(label.numpy()) return features, torch.tensor(labels)

让我们逐层拆解这个函数的设计哲学。

多尺度推理：提升鲁棒性的利器

for scale in ms: # 如 ms=[1, 1.1, 1.2] scaled_img = nn.functional.interpolate(img, scale_factor=scale, mode='bicubic')

多尺度策略的本质是增加输入多样性。不同尺度下的图像可能激活不同的卷积响应区域，从而捕捉更全面的空间信息。例如，小尺度图像有助于捕获整体轮廓，而大尺度图像则利于发现局部细节（如背包、鞋子）。

实践中常用[1, 1.15]或[1, 1.2]作为缩放因子组合，在精度与速度之间取得平衡。

⚠️ 注意：插值操作应在 CPU 上完成，避免频繁调用 GPU 导致显存碎片化；同时建议使用bicubic模式，因其在放大时比双线性更清晰。

水平翻转增强（TTA）：低成本高回报的技巧

def fliplr(img): inv_idx = torch.arange(img.size(3)-1, -1, -1).long().cuda() return img.index_select(3, inv_idx)

这是一个轻量级但极其有效的数据增强手段。通过对图像进行左右翻转，可以让模型看到“镜像视角”下的同一个人，从而提取更具泛化能力的特征。

关键在于：原图与翻转图的特征应相加后再归一化，而不是分别归一化再相加。否则会导致方向性偏差。

实验表明，仅加入水平翻转即可将 mAP 提升 1~2 个百分点，成本几乎为零。

L2 归一化：为何必不可少？

fnorm = torch.norm(ff, p=2, dim=1, keepdim=True) ff = ff.div(fnorm.expand_as(ff))

这一步看似简单，实则深刻影响检索效果。L2 归一化将每个特征向量投影到单位超球面上，使得余弦相似度等于欧氏距离的单调函数：

$$
\text{cosine}(x, y) = \frac{x^T y}{|x||y|} = x^T y \quad (\text{when } |x|=|y|=1)
$$

这意味着我们可以直接使用内积或欧氏距离进行最近邻搜索，而无需担心模长差异带来的干扰。

此外，归一化还能缓解因网络深层激活值波动引起的特征不稳定问题。

无梯度上下文：推理阶段的标配

with torch.no_grad():

这是 PyTorch 推理的最佳实践。关闭自动求导不仅能节省显存（无需保存中间变量），还能显著加快前向传播速度。在处理数千张图像时，这种优化累积起来非常可观。

执行特征提取：整合全流程

定义好函数后，调用变得极为简洁：

ms = [1, 1.2] # 启用多尺度 gallery_features, _ = extract_feature(model, dataloaders['gallery'], ms) query_features, _ = extract_feature(model, dataloaders['query'], ms) # 移回 CPU 以便保存 gallery_features = gallery_features.cpu() query_features = query_features.cpu()

是否保留在 GPU 上取决于后续用途：
- 如果立即进行距离矩阵计算（如torch.cdist），可保持在 GPU；
- 若需持久化存储或跨平台评估，则应移至 CPU 并转换为 NumPy 数组。

提取图像元信息：ID 与摄像头编号解析

仅有特征还不够。要评估 Rank-k 和 mAP 等指标，还必须知道每张图像的真实身份标签（ID）和拍摄摄像头（Camera ID）。

在 Market-1501 中，文件命名遵循特定格式：

0001_c1_s1_0001.jpg → ID=0001, Camera=1

因此可通过解析路径获取这些信息：

def get_id(img_path_list): camera_ids = [] labels = [] for path, _ in img_path_list: filename = os.path.basename(path) parts = filename.split('_') label = int(parts[0]) if parts[0] != '-1' else -1 camera = int(parts[1][1]) # 提取 c1 中的 '1' labels.append(label) camera_ids.append(camera) return np.array(camera_ids), np.array(labels) gallery_paths = image_datasets['gallery'].imgs query_paths = image_datasets['query'].imgs gallery_cam, gallery_label = get_id(gallery_paths) query_cam, query_label = get_id(query_paths)

这些信息将在 MATLAB 或 Python 评估脚本中用于判断预测是否命中。

结果保存：兼容传统评估体系

尽管越来越多项目转向 Python 评估（如 Torchreid、fast-reid），但仍有不少论文沿用 MATLAB 脚本（如evaluate_gpu.m）进行性能对比。为此，test.py通常会将结果保存为.mat文件：

import scipy.io result = { 'gallery_f': gallery_features.numpy(), 'gallery_label': gallery_label, 'gallery_cam': gallery_cam, 'query_f': query_features.numpy(), 'query_label': query_label, 'query_cam': query_cam } scipy.io.savemat('pytorch_result.mat', result) print("Features saved to pytorch_result.mat")

生成的.mat文件可在 MATLAB 中直接加载，并调用官方评估脚本计算：

Rank-1 / Rank-5 准确率
mAP
CMC 曲线

这种方式保证了与已有研究的公平比较，尤其在投稿阶段尤为重要。

总结：从实验到部署的最佳实践

环节	推荐做法
环境搭建	使用PyTorch-CUDA-v2.8 镜像，避免依赖冲突
模型加载	先`.cuda()`，再`load_state_dict()`，最后`model.eval()`
数据加载	设置`pin_memory=True`+`num_workers>0`提升吞吐
特征提取	启用多尺度（`ms=[1,1.15]`）+ 水平翻转，显著提升 mAP
显存管理	若 OOM，可降低 batch size 或禁用多尺度
结果输出	保存为`.mat`格式，兼容主流评估流程