news 2026/4/25 17:06:53

day49

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
day49

@浙大疏锦行

1. 预训练的概念
核心定义:先在大规模通用数据集上训练一个基础模型(学习通用特征,如边缘、纹理、形状),再将这个模型的参数迁移到目标任务中,进行微调(Fine-tuning)或直接使用。
本质:利用 “通用数据的特征迁移”,解决目标任务数据量少、训练成本高的问题,是迁移学习的核心方式之一。
作用:大幅降低目标任务的训练时间;提升小数据集任务的模型性能;避免从零训练模型的过拟合风险。

2.经典的预训练模型

3.预训练的策略
(1)冻结预训练层(仅微调头部):
操作:冻结预训练模型的大部分层(仅保留参数不更新),只修改模型的 “分类头”,仅训练分类头。
适用场景:目标任务数据量少、预训练模型特征足够通用。
(2)全量微调(Fine-tuning):
操作:解冻预训练模型的部分 / 全部层,让所有层的参数随目标任务更新。
适用场景:目标任务数据量充足,需要模型适配任务的专属特征。
(3)特征提取(Feature Extraction):
操作:直接用预训练模型的输出作为目标任务的特征,不更新预训练模型参数,仅训练新的分类器。
适用场景:目标任务与预训练任务高度相似,预训练特征可直接复用。

用预训练 ResNet18 完成 CIFAR10 分类

在CIFAR10 对比不同预训练模型(以 MobileNetV2 为例)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 10:45:37

Qwen2.5-7B实战案例:搭建多语言客服系统,支持29种语言输出

Qwen2.5-7B实战案例:搭建多语言客服系统,支持29种语言输出 1. 引言:为什么需要多语言客服系统? 随着全球化业务的扩展,企业客户群体日益多元化,用户不再局限于单一语言环境。传统客服系统往往只能支持中英…

作者头像 李华
网站建设 2026/4/18 16:37:38

Qwen2.5-7B数学教育游戏:互动式问题生成

Qwen2.5-7B数学教育游戏:互动式问题生成 1. 引言:大模型赋能教育智能化新场景 1.1 数学教育的数字化转型挑战 传统数学教学长期面临个性化不足、互动性弱、反馈延迟等问题。学生在解题过程中缺乏即时引导,教师难以针对每个学生的理解水平动…

作者头像 李华
网站建设 2026/4/23 16:11:26

Qwen2.5-7B vs Llama3-8B实战对比:中文理解能力全面评测

Qwen2.5-7B vs Llama3-8B实战对比:中文理解能力全面评测 在大语言模型快速发展的今天,中文语境下的语言理解能力已成为衡量模型实用性的关键指标。随着阿里云发布 Qwen2.5 系列模型,其在中文场景中的表现引发了广泛关注。与此同时&#xff0…

作者头像 李华
网站建设 2026/4/25 16:03:46

Qwen2.5-7B推理吞吐低?并发优化部署实战解决方案

Qwen2.5-7B推理吞吐低?并发优化部署实战解决方案 1. 背景与问题提出 1.1 Qwen2.5-7B 模型简介 Qwen2.5 是阿里云最新发布的大型语言模型系列,覆盖从 0.5B 到 720B 参数的多个版本。其中 Qwen2.5-7B 是一个具备高性价比和广泛适用性的中等规模模型&…

作者头像 李华
网站建设 2026/4/19 18:28:12

Qwen2.5-7B语音助手集成:与TTS系统的联合部署案例

Qwen2.5-7B语音助手集成:与TTS系统的联合部署案例 1. 引言:构建下一代智能语音交互系统 随着大语言模型(LLM)在自然语言理解与生成能力上的飞速发展,将高质量语言模型与语音合成技术(TTS)结合&…

作者头像 李华