news 2026/6/9 12:38:14

AI模型训练:数据获取与增强

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI模型训练:数据获取与增强

数据是训练一切模型的基础,因此如何获取数据就成了一个先行条件。

1.常见的机器学习数据集

(1)MNIST

属于计算机视觉领域,手写数字灰度图,包含有六万的训练集以及一万的测试集。

(2)ImageNet

引领了深度学习的热点,它包含1400万+的标注图像,2万多的类别。

(3)AudioSet

基于 YouTube 上声音的切片,用于进行声音分类。

(4)KITTI

基于驾驶的信息用作无人驾驶训练。

(5)LibriSpeech

有声读物训练集,基于 LibriVox 项目的公共领域英语有声读物构建,用于自动语音识别。

(6)Object Detection Datasets

用于目标检测的数据集,包含车辆、人脸、火灾、危险行为等。https://public.roboflow.com/object-detection

2.生成数据集

(1)使用 GAN s

https://this-person-does-not-exist.com/en

(2)数据增强

通过对原始训练数据进行一系列随机但有意义的变换,生成新的、多样化的训练样本的技术。例如旋转、缩放、噪音、抖动等技术增加数据的多样性和数量,让模型看到更多可能的“变体”,从而提高模型的泛化能力鲁棒性

# 定义多种增强变换 def create_augmentation_transforms(): transforms_list = { # 基础几何变换 'Original': transforms.Compose([ transforms.Resize((256, 256)), ]), # 各种旋转 'Rotate 30°': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomRotation(30), ]), 'Rotate 45°': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomRotation(45), ]), 'Rotate -15°': transforms.Compose([ transforms.Resize((256, 256)), lambda x: F.rotate(x, -15), # 固定角度旋转 ]), # 缩放和裁剪 'Random Resized Crop': transforms.Compose([ transforms.RandomResizedCrop( size=256, scale=(0.5, 1.0), # 随机缩放50%-100% ratio=(0.75, 1.33) # 宽高比范围 ), ]), # 翻转 'Horizontal Flip': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomHorizontalFlip(p=1.0), # 强制翻转 ]), 'Vertical Flip': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomVerticalFlip(p=1.0), ]), # 颜色变换 'Color Jitter (Strong)': transforms.Compose([ transforms.Resize((256, 256)), transforms.ColorJitter( brightness=0.5, contrast=0.5, saturation=0.5, hue=0.3 ), ]), 'Grayscale': transforms.Compose([ transforms.Resize((256, 256)), transforms.Grayscale(num_output_channels=3), # 保持3通道 ]), # 噪声 'Gaussian Noise': transforms.Compose([ transforms.Resize((256, 256)), AddNoise(noise_type='gaussian', intensity=0.2), ]), 'Salt & Pepper Noise': transforms.Compose([ transforms.Resize((256, 256)), AddNoise(noise_type='salt_pepper', intensity=0.05), ]), # 模糊效果 'Gaussian Blur': transforms.Compose([ transforms.Resize((256, 256)), transforms.GaussianBlur(kernel_size=5, sigma=(0.1, 2.0)), ]), # 透视变换 'Perspective Transform': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomPerspective( distortion_scale=0.5, p=1.0 ), ]), # 仿射变换 'Affine Transform': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAffine( degrees=0, translate=(0.2, 0.2), # 平移20% scale=(0.8, 1.2), # 缩放80%-120% shear=20 # 错切20度 ), ]), # 弹性变换 'Elastic Transform': transforms.Compose([ transforms.Resize((256, 256)), transforms.ElasticTransform(alpha=50.0, sigma=5.0), ]), # 组合增强(随机顺序) 'Random Combination': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomApply([ transforms.RandomRotation(20), transforms.ColorJitter(0.3, 0.3, 0.3, 0.1), ], p=0.8), transforms.RandomHorizontalFlip(p=0.5), transforms.RandomGrayscale(p=0.2), ]), # 边缘增强 'Sharpness Adjust': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAdjustSharpness(sharpness_factor=2, p=1.0), ]), # 自动对比度 'Auto Contrast': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAutocontrast(p=1.0), ]), }

文本增强:将一段话翻译为另一种中间语言,然后又翻译回该语言以此实现语义相同但是语法结构不同的效果。此外还有多种方式,比如词汇级增强(同义词替换、随机插入)字符级增强(随机字符替换、随机字符交换等)句子级增强(语法树变换等)。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 14:21:00

Nginx基础

Nginx 基础文档 一、Nginx 配置文件结构概述 Nginx 的主配置文件通常位于: Linux: /etc/nginx/nginx.confmacOS (Homebrew): /usr/local/etc/nginx/nginx.confWindows: nginx/conf/nginx.conf 配置文件采用分层块结构,主要由以下几部分组成&#xff…

作者头像 李华
网站建设 2026/6/9 22:29:00

从 JSON Schema 到企业级动态数据模型:动态表单的终极演进路线

从 JSON Schema 到企业级动态数据模型:动态表单的终极演进路线 在很多团队里,“动态表单”往往被理解为: 前端根据一份 JSON 配置渲染表单,避免写死页面。 但真正有价值的动态表单系统,从来不只是 UI 技术,而是一个 以 Schema 为核心的企业级动态数据模型平台。 它让数据…

作者头像 李华
网站建设 2026/6/10 0:49:12

选九影网络做游戏定制开发,硬核技术壁垒,全流程技术护航

在数字娱乐全面渗透的当下,游戏早已突破传统休闲的边界,成为品牌营销、教育科普、政企宣传与文化传播的重要媒介。轻量化社交互动小游戏、沉浸式 AR/VR 体验游戏、教育场景知识闯关游戏、品牌引流互动营销游戏…… 多元场景下,市场对游戏的个…

作者头像 李华
网站建设 2026/6/9 23:26:35

社会网络仿真软件:NetLogo_(12).社会网络仿真在社会科学中的应用

社会网络仿真在社会科学中的应用 在社会科学领域,社会网络仿真是研究社会结构、关系和动态的重要工具。通过社会网络仿真,研究人员可以模拟和分析复杂的社会系统,探索个体行为如何影响整体社会动态。NetLogo 是一个广泛使用的多智能体仿真平…

作者头像 李华
网站建设 2026/6/10 1:05:45

麦角甾醇PEG生物素;Ergosterol-PEG-Biotin的核心价值

试剂基本信息 英文名称:Ergosterol-PEG-Biotin;Ergosterol 中文名称: 麦角甾醇PEG生物素;甲基胆固醇;麦角固醇 纯度:>95% 外观性状:固体 溶解条件:溶于部分有机溶液 供应厂…

作者头像 李华