day49-洪萨配资

@浙大疏锦行

1. 预训练的概念
核心定义：先在大规模通用数据集上训练一个基础模型（学习通用特征，如边缘、纹理、形状），再将这个模型的参数迁移到目标任务中，进行微调（Fine-tuning）或直接使用。
本质：利用 “通用数据的特征迁移”，解决目标任务数据量少、训练成本高的问题，是迁移学习的核心方式之一。
作用：大幅降低目标任务的训练时间；提升小数据集任务的模型性能；避免从零训练模型的过拟合风险。

2.经典的预训练模型

3.预训练的策略
（1）冻结预训练层（仅微调头部）：
操作：冻结预训练模型的大部分层（仅保留参数不更新），只修改模型的 “分类头”，仅训练分类头。
适用场景：目标任务数据量少、预训练模型特征足够通用。
（2）全量微调（Fine-tuning）：
操作：解冻预训练模型的部分 / 全部层，让所有层的参数随目标任务更新。
适用场景：目标任务数据量充足，需要模型适配任务的专属特征。
（3）特征提取（Feature Extraction）：
操作：直接用预训练模型的输出作为目标任务的特征，不更新预训练模型参数，仅训练新的分类器。
适用场景：目标任务与预训练任务高度相似，预训练特征可直接复用。

用预训练 ResNet18 完成 CIFAR10 分类

在CIFAR10 对比不同预训练模型（以 MobileNetV2 为例）

Qwen2.5-7B实战案例：搭建多语言客服系统，支持29种语言输出

Qwen2.5-7B实战案例：搭建多语言客服系统，支持29种语言输出 1. 引言：为什么需要多语言客服系统？ 随着全球化业务的扩展，企业客户群体日益多元化，用户不再局限于单一语言环境。传统客服系统往往只能支持中英…

李华

Qwen2.5-7B数学教育游戏：互动式问题生成

Qwen2.5-7B数学教育游戏：互动式问题生成 1. 引言：大模型赋能教育智能化新场景 1.1 数学教育的数字化转型挑战传统数学教学长期面临个性化不足、互动性弱、反馈延迟等问题。学生在解题过程中缺乏即时引导，教师难以针对每个学生的理解水平动…

李华

Qwen2.5-7B vs Llama3-8B实战对比：中文理解能力全面评测

Qwen2.5-7B vs Llama3-8B实战对比：中文理解能力全面评测在大语言模型快速发展的今天，中文语境下的语言理解能力已成为衡量模型实用性的关键指标。随着阿里云发布 Qwen2.5 系列模型，其在中文场景中的表现引发了广泛关注。与此同时&#xff0…

李华

Qwen2.5-7B推理吞吐低？并发优化部署实战解决方案

Qwen2.5-7B推理吞吐低？并发优化部署实战解决方案 1. 背景与问题提出 1.1 Qwen2.5-7B 模型简介 Qwen2.5 是阿里云最新发布的大型语言模型系列，覆盖从 0.5B 到 720B 参数的多个版本。其中 Qwen2.5-7B 是一个具备高性价比和广泛适用性的中等规模模型&…

李华

Qwen2.5-7B语音助手集成：与TTS系统的联合部署案例

Qwen2.5-7B语音助手集成：与TTS系统的联合部署案例 1. 引言：构建下一代智能语音交互系统随着大语言模型（LLM）在自然语言理解与生成能力上的飞速发展，将高质量语言模型与语音合成技术（TTS）结合&…

李华

Qwen2.5-7B实战案例：搭建多语言客服系统，支持29种语言输出

Qwen2.5-7B数学教育游戏：互动式问题生成

Qwen2.5-7B vs Llama3-8B实战对比：中文理解能力全面评测

Qwen2.5-7B推理吞吐低？并发优化部署实战解决方案

Qwen2.5-7B语音助手集成：与TTS系统的联合部署案例

超分辨率重建 | CVPR 2024 DarkIR：轻量级低光照图像增强与去模糊模型（代码实践）