MindSpore开发之路：训练过程的得力助手：回调函数（Callbacks）详解-洪萨配资

训练进行到哪里了？损失值（Loss）是在下降吗？
模型的精度（Accuracy）表现如何？
训练到一半，如果程序意外中断，我能从断点处恢复吗？
我能否在训练过程中根据某些条件动态地调整学习率？

要解决这些问题，我们就需要引入一个强大的工具——回调函数（Callbacks）。

1. 回调函数是说明

回调函数就像是我们在模型训练这个“长途旅行”中设置的多个“服务站”。每当训练进行到某个特定节点（如一个epoch结束、一个step完成），模型就会自动“停靠”在这些服务站，执行我们预先定义好的任务，比如记录日志、保存模型、或者调整参数。它们是监控和控制训练过程的关键。

本篇文章将详细介绍MindSpore中的回调机制，让您学会如何利用这些“得力助手”来掌控您的模型训练。

2. 回调函数的基本使用

在MindSpore中，回调函数主要与高阶APImindspore.Model配合使用。在使用model.train()方法时，我们可以通过callbacks参数传入一个或多个回调函数组成的列表。

from mindspore.train.callback import LossMonitor from mindspore import Model # 假设 net, loss_fn, optimizer, dataset 已经定义好 model = Model(net, loss_fn, optimizer) # 创建一个回调函数实例（这里是损失监控器） loss_callback = LossMonitor(per_print_times=100) # 每100个step打印一次loss # 在训练时传入回调函数列表 model.train(epoch=10, train_dataset=dataset, callbacks=[loss_callback])

MindSpore在mindspore.train.callback模块中为我们提供了许多开箱即用的回调函数，下面我们来认识几个最常用的。

3. 核心内置回调函数

3.1`LossMonitor`：实时损失监控器

这是最基础、最常用的回调。它能帮助我们在训练过程中实时打印损失函数的值，让我们直观地判断模型是否在有效地学习（通常表现为损失值稳步下降）。

关键参数：
- per_print_times(int): 每隔多少个step打印一次loss信息。默认为1。
使用示例：

from mindspore.train.callback import LossMonitor # 每100个step打印一次loss loss_cb = LossMonitor(100) # 如果想在每个epoch结束时打印平均loss，可以这样做 # loss_cb = LossMonitor(len(dataset)) model.train(epoch=5, train_dataset=dataset, callbacks=[loss_cb])

输出可能如下所示：

epoch: 1 step: 100, loss is 2.301
epoch: 1 step: 200, loss is 2.298
...

3.2`ModelCheckpoint`：模型状态保存器

训练一个好的模型非常耗时，如果因为意外情况导致训练中断，之前的所有努力都将付诸东流。ModelCheckpoint就是我们的“存档”工具，它可以在训练过程中自动保存模型的权重参数（checkpoint文件）。

工作原理：你可以设置策略，比如“保存训练过程中精度最高的模型”或“每隔5个epoch保存一次模型”。这样，即使训练中断，你也可以加载最近保存的模型权重，从断点处继续训练或直接用于推理。
关键参数：
- prefix(str): checkpoint文件的前缀名。
- directory(str): 保存checkpoint文件的目录。
- config(CheckpointConfig): 一个更详细的配置对象，用于设置保存策略。
CheckpointConfig的关键参数：
- save_checkpoint_steps(int): 每隔多少个step保存一次。
- keep_checkpoint_max(int): 最多保留多少个checkpoint文件。当生成新的文件时，旧的会被删除。
- save_checkpoint_seconds(int): 每隔多少秒保存一次。
使用示例：

from mindspore.train.callback import ModelCheckpoint, CheckpointConfig # 1. 配置保存策略 config = CheckpointConfig( save_checkpoint_steps=1875, # 每1875个step保存一次（假设等于一个epoch） keep_checkpoint_max=10 # 最多保留10个模型文件 ) # 2. 创建ModelCheckpoint回调 # 文件名会是类似 "MyNet-1_1875.ckpt", "MyNet-2_3750.ckpt" ... ckpt_cb = ModelCheckpoint(prefix="MyNet", directory="./checkpoints", config=config) model.train(epoch=10, train_dataset=dataset, callbacks=[loss_cb, ckpt_cb])

3.3`TimeMonitor`：训练耗时监控器

这个回调用于监控训练的耗时，可以帮助我们评估训练效率，分析性能瓶颈。

关键参数：
- data_size(int): 每个epoch的step总数（通常是len(dataset)）。
使用示例：

from mindspore.train.callback import TimeMonitor time_cb = TimeMonitor(data_size=len(dataset)) model.train(epoch=10, train_dataset=dataset, callbacks=[time_cb])

输出会显示每个step的平均耗时以及每个epoch的总耗时。

4. 自定义你的回调函数

虽然内置回调很方便，但有时我们需要实现更个性化的功能，比如：

在每个epoch结束后，在验证集上评估一次模型精度并打印。
当loss连续多个epoch不再下降时，提前终止训练（Early Stopping）。
动态调整学习率。

这时，我们就可以通过继承mindspore.train.callback.Callback基类来创建自己的回调函数。

核心方法重写：你只需要在你关心的“时间点”重写对应的方法即可。
- train_begin(run_context): 训练开始时执行。
- train_end(run_context): 训练结束时执行。
- epoch_begin(run_context): 每个epoch开始时执行。
- epoch_end(run_context): 每个epoch结束时执行。
- step_begin(run_context): 每个step开始时执行。
- step_end(run_context): 每个step结束时执行。
自定义回调示例：

让我们创建一个简单的回调，它会在每个epoch结束后打印一条分割线，并报告当前是第几个epoch。

from mindspore.train.callback import Callback class EpochEndInfo(Callback): """一个在每个epoch结束后打印信息的自定义回调""" def epoch_end(self, run_context): # run_context可以获取到训练过程中的一些信息 cb_params = run_context.original_args() epoch_num = cb_params.cur_epoch_num print(f"----------------- Epoch {epoch_num} is finished! -----------------", flush=True) # 使用自定义回调 epoch_info_cb = EpochEndInfo() model.train(epoch=5, train_dataset=dataset, callbacks=[loss_cb, epoch_info_cb])

输出会是：

epoch: 1 step: 100, loss is 1.892
...
----------------- Epoch 1 is finished! -----------------
epoch: 2 step: 100, loss is 1.532
...

5. 总结

回调函数（Callback）是MindSpore训练流程中一个极其灵活且强大的工具。通过它，我们可以像插件一样，在训练的各个阶段插入自定义逻辑，而无需修改训练主循环的代码。

在本文中，我们学习了：

回调函数的基本用法：在model.train()中通过callbacks参数传入。
核心内置回调：使用LossMonitor监控损失，使用ModelCheckpoint保存模型，使用TimeMonitor监控耗时。
自定义回调：通过继承Callback基类并重写特定方法（如epoch_end）来实现个性化功能。

熟练掌握回调函数的使用，将使你的模型训练过程更加透明、可控和高效。

MindSpore开发之路：训练过程的得力助手：回调函数（Callbacks）详解

1. 回调函数是说明

2. 回调函数的基本使用

3. 核心内置回调函数

3.1`LossMonitor`：实时损失监控器

3.2`ModelCheckpoint`：模型状态保存器

3.3`TimeMonitor`：训练耗时监控器

4. 自定义你的回调函数

5. 总结

【建议收藏】RAG技术深度剖析：从原理到实践，小白也能轻松掌握的检索增强生成指南

【深度学习】YOLO实战之模型训练

学霸同款9个AI论文工具，助你轻松搞定本科论文！

楼宇ICT规划实施标准：公区架构、基础设施与管理的稳定性保障

【收藏必学】突破LLM瓶颈：AI Agent记忆系统架构设计与实践全攻略

Android Studio终极汉化配置：深度解析中文界面实现原理

1. 回调函数是说明

2. 回调函数的基本使用

3. 核心内置回调函数

3.1LossMonitor：实时损失监控器

3.2ModelCheckpoint：模型状态保存器

3.3TimeMonitor：训练耗时监控器

4. 自定义你的回调函数

5. 总结

【建议收藏】RAG技术深度剖析：从原理到实践，小白也能轻松掌握的检索增强生成指南

【深度学习】YOLO实战之模型训练

学霸同款9个AI论文工具，助你轻松搞定本科论文！

楼宇ICT规划实施标准：公区架构、基础设施与管理的稳定性保障

【收藏必学】突破LLM瓶颈：AI Agent记忆系统架构设计与实践全攻略

Android Studio终极汉化配置：深度解析中文界面实现原理

3.1`LossMonitor`：实时损失监控器

3.2`ModelCheckpoint`：模型状态保存器

3.3`TimeMonitor`：训练耗时监控器