第37章：Trainer、Callback 与训练循环源码-洪萨配资

1 项目背景

业务场景

算法团队在客服工单分类任务的训练过程中遇到了一个奇怪的问题：训练 loss 一直在正常下降，但验证集 F1 在第 2 个 epoch 后突然从 0.89 跌到 0.62，之后一直震荡不恢复。更奇怪的是，Trainer 的EarlyStoppingCallback没有触发——因为它是基于eval_loss判断的，而eval_loss仍在缓慢下降。

小陈需要在训练过程中同时监控 F1——当 F1 连续 3 个 epoch 没有提升时提前停止训练。此外，还需要在指标异常时发送钉钉告警。这要求他深入理解 Trainer 的 Callback 机制。

另一个需求是自定义 loss：由于投诉类工单的标签极度稀疏（仅占 5%），标准的 CrossEntropyLoss 会让模型忽略投诉类。小陈需要在训练时给类别加权。

痛点

Trainer 虽然封装良好，但一旦需要自定义行为，就必须理解其内部机制：

Trainer.train() ├── _inner_training_loop() │ ├── for epoch in epochs: │ │ ├── for step, batch in dataloader: │ │ │ ├── training_step(batch) ← 可重写 │ │ │ │ ├── model(**batch) ← forward │

别再死磕复杂模型了！用PyTorch实现MLS基线，让你的开放集识别(OSR)性能轻松提升

别再死磕复杂模型了！用PyTorch实现MLS基线，让你的开放集识别(OSR)性能轻松提升当算法工程师面对开放集识别(OSR)任务时，往往会被各种复杂方法所困扰——从基于生成对抗网络的OpenGAN到需要精心设计损失函数的ARPL。但最新研究表明&#xff0c…

李华

Casbin匹配器缓存机制深度解析：高性能访问控制框架的并发优化原理

Casbin匹配器缓存机制深度解析：高性能访问控制框架的并发优化原理【免费下载链接】casbin Apache Casbin: an authorization library that supports access control models like ACL, RBAC, ABAC. 项目地址: https://gitcode.com/GitHub_Trending/ca/casbin …

李华

Matlab鲸鱼优化LSSVM回归工具：6维输入自动调参+五项指标评估+多图可视化

本文还有配套的精品资源，点击获取简介：一套即装即用的Matlab多变量回归预测方案，专为6维特征输入、单连续值输出设计。核心是用鲸鱼优化算法（WOA）全自动搜索LSSVM的RBF核关键参数gam和sig，省去手动调参…

李华

HS2-HF补丁：如何用5分钟解锁Honey Select 2的完整游戏体验

HS2-HF补丁：如何用5分钟解锁Honey Select 2的完整游戏体验【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 你是否曾经因为语言障碍而无法完全享受Ho…

李华

别再只会点灯了！用51单片机和DS1302做个实用电子钟，LCD1602显示还能手机调时间

51单片机进阶实战：打造智能电子钟与手机远程控制系统从LED到实用电子设备的技术跨越很多单片机初学者在掌握了基础的点灯操作后，往往会陷入"接下来学什么"的迷茫。实际上，将51单片机与常见外设模块组合，可以创造出各种实…

李华

企业知识库上RAG：200+格式文档怎么拆、怎么索引、怎么不踩坑

企业知识库上RAG：200格式文档怎么拆、怎么索引、怎么不踩坑搞企业知识库的人，十个里有九个被"格式太多"这件事折磨过。CAD图纸、PSD源文件、PDF合同、Word方案、Excel报表、视频会议录像、邮件附件……我2024年帮某设计院搭RAG知识库的时候&a…

李华