news 2026/4/27 8:49:48

some 知识点 knowledge

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
some 知识点 knowledge

输出 查看模型结构 使用print(model) model.name_module() model.named_parameters()等方式查看层级结构

对于vit reanet yolox等常见架构 结合官方文档和源吗

确定可冻结/可训练的模块 在vit中 可以冻结 patch_embed 和前几层blocks 只微调后面几层+分类头

通过requires_grad控制梯度更新 冻结backbone 解冻特定层

微调的时候 不同模块用不同的学习率

还有的是在不同的epoch使用不同的学习率

学习率调度知识点:

按epoch变化 step decay 阶梯衰减 每隔固定epoch 学习率*一个衰减因子

多阶段衰减,在预设的epoch节点 衰减

linear warmup_decay 线性预热+衰减 前几个epoch线性增加 learning rate 之后按照step/cosine衰减

啥是cosine decay?余弦衰减 学习率就像余弦的图像一样衰减下来

关于早停机制、保存最佳模型、最终模型是否最优

在深度学习训练中,训练loss会持续下降,但是验证指标(比如准确率 mAp f1 )往往会线上升后下降 这就是过拟合

F1的计算就是:

不能只是保存最后的checkpoint 而是要监控验证指标,保存历史最佳

最好的标准是自己决定的:你所关心的指标达到最优就是 最好

早停机制 :当模型在验证集上不再变好时,提前终止训练, 在每个epoch 或者是n个step 在验证集上评估指标 如果连续 m个epoch没有提升,就停止训练

让我想起了一个叫做优化器的东西。

optimizer = torch.optim.AdamW(
model.parameters(),#model.parameters这些参数是需要被更新的
lr=5e-5,#学习率
weight_decay=0.05,#衰减
betas=(0.9, 0.98) # ViT 常用 beta1=0.9 当前梯度占0.1 过去梯度占0.9 beta2=0.98梯度平方的平滑,控制步长缩放,防止某些参数更新太猛

scheduler = get_cosine_schedule_with_warmup(
optimizer,
num_warmup_steps=500,#学习率这样持续500个step 注意step和epoch的区别 训练一次就能看出来了 epoch是多个step
num_training_steps=total_steps
)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:37:10

限时掌握!生物医学研究中的甲基化差异分析黄金模板(R语言版)

第一章:甲基化差异分析的背景与意义DNA甲基化是一种重要的表观遗传修饰,广泛参与基因表达调控、细胞分化以及疾病发生发展过程。在哺乳动物中,甲基化通常发生在CpG二核苷酸中的胞嘧啶上,形成5-甲基胞嘧啶(5mC&#xff…

作者头像 李华
网站建设 2026/4/22 15:36:43

[Web自动化] CSS基础概念和介绍

4.1 CSS基础概念和介绍 4.1.1 CSS的基本概念 CSS,全称Cascading Style Sheets(层叠样式表),是一种用来表现HTML或XML(包括各种XML方言如SVG、XHTML或XML用于已经建立的一些如MathML或RDF的应用)等文件样式…

作者头像 李华
网站建设 2026/4/19 0:57:38

数据仓库系统建设:数据采集、预处理与集成

采集的原则要求数仓作为“面向分析的集成化数据环境”,其数据采集并非简单的“数据搬运”,需满足以下要求:主题关联性:采集的数据必须与数仓主题匹配(如用户主题需关联用户行为、基本信息数据),…

作者头像 李华
网站建设 2026/4/26 8:31:51

Eruda:移动端网页调试利器

在移动互联网时代,移动端网页开发的需求日益增长。然而,与桌面端开发不同,移动端网页的调试面临着诸多挑战。由于移动设备的屏幕尺寸、操作系统和浏览器环境的多样性,传统的桌面端调试工具难以直接应用于移动端。Eruda作为一款轻量…

作者头像 李华
网站建设 2026/4/21 7:09:18

Dify智能体平台条件分支调用Qwen-Image场景设计

Dify智能体平台条件分支调用Qwen-Image场景设计 在内容创作日益智能化的今天,企业对AIGC系统的期待早已不止于“能生成图像”这么简单。真正的挑战在于:如何让系统聪明地决定什么时候该生成图像,并且一旦触发,就能输出符合专业标准…

作者头像 李华
网站建设 2026/4/25 13:40:29

HTTP/3性能提升300%?:揭秘谷歌、Cloudflare背后的黑科技

第一章:HTTP/3性能提升300%?真相揭秘 近年来,关于“HTTP/3性能提升300%”的说法在技术社区广泛传播,但这一数字往往脱离实际场景。HTTP/3确实带来了显著的性能优化,但其真实收益取决于网络环境、应用类型和部署方式。 …

作者头像 李华