### **一、计算机视觉(CV)技术应用现状简述**
计算机视觉技术已深入各行各业,主要应用现状如下:
1. **工业与安防**
- **工业检测**:自动化外观缺陷检测、精密尺寸测量(如半导体、汽车零部件)。
- **智能监控**:人脸/车牌识别、行为分析(如跌倒检测、人群密度预警)。
2. **自动驾驶与交通**
- 环境感知(障碍物检测、车道线识别)、高精地图构建、交通流量监控。
3. **医疗影像**
- 辅助诊断(CT/MRI影像病灶分割、病理细胞分析)、手术导航。
4. **消费电子与互联网**
- 手机人脸解锁、AR滤镜、相册智能分类;电商拍照搜图、内容审核。
5. **新兴领域**
- **农业**:作物病害识别、无人机农田监测。
- **元宇宙**:3D重建、动作捕捉、虚拟人驱动。
**技术趋势**:
- **多模态融合**(视觉+语言,如GPT-4V)。
- **轻量化与边缘计算**(端侧部署)。
- **自监督学习**(减少标注依赖)。
- **生成式视觉**(Stable Diffusion、Sora等视频生成)。
---
### **二、CNN模型识别图像中对象的流程**
以经典CNN(如ResNet、YOLO)为例,流程如下:
1. **输入预处理**
- 调整图像尺寸至固定分辨率(如224×224)。
- 归一化像素值(如转换为0-1范围)。
- 数据增强(训练时采用旋转、翻转等提升泛化性)。
2. **特征提取(卷积层堆叠)**
- **卷积操作**:使用滤波器滑动扫描图像,提取局部特征(边缘、纹理等)。
- **激活函数**:引入非线性(如ReLU)。
- **池化层**:下采样减少参数量(如最大池化保留显著特征)。
- **深层结构**:多层卷积逐步组合低级特征,形成高级语义特征(如“车轮→汽车”)。
3. **分类与定位**
- **分类任务**:
- 特征图展平后输入全连接层。
- 输出层通过Softmax生成类别概率分布。
- **检测任务**(如YOLO):
- 在特征图上进行锚框回归预测边界框坐标。
- 同时预测框内对象的类别置信度。
4. **输出与后处理**
- **分类结果**:输出概率最高的类别标签。
- **检测结果**:
- 非极大值抑制(NMS)去除冗余框。
- 最终输出带标签的边界框。
**关键特点**:
- **局部感知**:卷积核专注于局部区域。
- **权值共享**:同一滤波器扫描整张图像,减少参数量。
- **层次化特征**:从边缘到物体部件的渐进式抽象。
---
### **示例:ResNet分类图像中的猫**
```
输入图片 → 卷积层(提取轮廓/纹理) → 残差块(深化特征)
→ 全局平均池化 → 全连接层 → Softmax → 输出“猫”(概率0.92)
```
通过上述流程,CNN实现了从像素到语义的端到端对象识别。