news 2026/3/27 13:38:48

day42

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
day42

1. 过拟合的判断
过拟合是模型 “记住” 训练数据但泛化能力差的现象,核心判断方式是同步打印训练集和测试集的指标:
正常情况:训练集、测试集的损失(Loss)同步下降,准确率(或其他指标)同步上升;
过拟合情况:训练集损失持续下降、准确率持续上升,但测试集损失停止下降甚至上升、准确率停止提升。
2. 模型的保存和加载
PyTorch 中模型保存 / 加载有 3 种常见方式:
a. 仅保存权重(最常用)
保存:仅保存模型的参数(state_dict),文件小、灵活;

加载:需先初始化模型结构,再加载权重;

b. 保存权重和模型
保存:直接保存整个模型对象(包含结构 + 权重)

加载:直接加载模型

c. 保存全部信息(checkpoint)
保存:包含模型权重、优化器状态、训练轮数、损失等训练状态,支持 “断点续训”

加载:恢复模型 + 优化器状态,继续训练

3. 早停策略
早停是防止过拟合的常用方法:当测试集损失连续 N 轮不再下降时,提前停止训练。
核心逻辑:
记录当前最优测试集损失;
每轮训练后对比新的测试集损失;
若连续patience轮损失未下降,则停止训练。

作业:

@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/25 17:51:29

Qwen3-VL与Dify结合构建企业级AI Agent解决方案

Qwen3-VL与Dify构建企业级AI Agent:从感知到执行的闭环智能 在智能制造车间,一台设备突然停机。现场工程师拍下控制面板截图上传至内部系统,不到十秒,自动工单生成——不仅标注出异常指示灯位置,还调取维修手册片段并预…

作者头像 李华
网站建设 2026/3/13 13:45:08

Qwen3-VL通过清华镜像安装CUDA驱动全过程

Qwen3-VL通过清华镜像安装CUDA驱动全过程 在人工智能模型日益复杂的今天,部署一个视觉语言大模型不再只是“下载权重、加载推理”那么简单。尤其是像 Qwen3-VL 这类支持256K上下文、具备GUI操作与高级OCR能力的多模态系统,对硬件加速和环境配置提出了极…

作者头像 李华
网站建设 2026/3/26 12:33:47

原神帧率解锁终极指南:告别60FPS限制的完整解决方案

还在为原神60FPS的限制感到困扰吗?想要在提瓦特大陆享受更流畅的视觉体验吗?Genshin FPS Unlocker正是你需要的技术工具。这款开源程序通过内存操作技术,在不修改游戏文件的情况下安全解除帧率限制,让你的游戏画面如丝般顺滑。 【…

作者头像 李华
网站建设 2026/3/27 1:59:37

Qwen3-32B-AWQ:让AI智能在思考与高效间自由切换

导语 【免费下载链接】Qwen3-32B-AWQ 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-32B-AWQ Qwen3-32B-AWQ作为阿里达摩院最新推出的量化版本大语言模型,首次实现了单一模型内"思考模式"与"非思考模式"的无缝切换&#xff…

作者头像 李华
网站建设 2026/3/27 6:44:16

OBS多平台直播终极指南:Multi RTMP插件一键搞定所有平台

还在为不同直播平台需要重复设置推流参数而头疼吗?OBS Multi RTMP插件就是你的直播效率倍增器!这个强大的工具能让你一次性在YouTube、Twitch、Bilibili等多个平台同时开启直播,彻底告别繁琐的重复操作,让你的直播效率翻倍提升&am…

作者头像 李华
网站建设 2026/3/15 11:36:04

ARM仿真器与目标板连接配置详解

ARM仿真器与目标板连接实战指南:从原理到避坑全解析你有没有遇到过这样的场景?新画的PCB板第一次上电,信心满满地插上J-Link,打开Keil,结果弹出“No target connected”——瞬间心凉半截。反复检查线序、电源、复位电路…

作者头像 李华