📖标题:TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents
🌐来源:arXiv, 2604.24005v3
🛎️文章简介
🔸研究问题:如何在多轮自主智能体场景中,解决因误差累积导致的传统策略蒸馏训练不稳定及性能崩溃问题?
🔸主要贡献:论文提出了 TCOD 框架,通过由浅入深的时序课程学习控制轨迹深度,显著提升了多轮智能体的训练稳定性与最终性能。
📝重点思路
🔸发现并定义了“轨迹级 KL 不稳定性”现象,指出在多轮交互中,学生模型的早期错误会随回合数增加而累积,导致其状态分布偏离教师模型的有效支持范围,引发 KL 散度激增和成功率崩塌。
🔸提出前向至后向(F2B)变体,在训练初期限制学生仅执行轨迹的前几步,随后按线性节奏逐步增加交互步数,让学生先掌握短期决策再过渡到长程规划。
🔸提出后向至前向(B2F)变体,利用教师模型执行成功轨迹的前缀部分将环境状态引导至接近终点的中间态,让学生从该状态开始学习并完成剩余步骤,随着训练进行逐渐回溯起始点直至覆盖全程。
🔸设计异步训练架构与陈旧感知子轨迹回放机制,将完整轨迹分解为递归子序列存储,并通过过滤过时数据平衡采样效率与策略约束,进一步提升训练效率。
🔎分析总结
🔸实验表明 TCOD 有效抑制了 KL 散度的异常 escalation,避免了小模型在 vanilla OPD 训练中成功率归零的崩溃现象,使训练过程更加平稳。
🔸在 ALFWorld、WebShop 等多个基准测试中,TCOD 不仅恢复了小模型的性能,还将大模型的成功率提升了最高 18 个百分点,同时减少了平均行动步数。
🔸TCOD 展现出超越教师模型的能力,在教师本身无法解决的困难任务分割集上,学生模型的成功率可超出教师达 14 个点,证明了其泛化能力突破了教师的能力边界。
🔸该方法对课程增长速率参数不敏感,且相比传统方法能减少约 32% 的总训练时间,因为早期较短的轨迹加速了数据采集与迭代过程。
💡个人观点
论文捕捉到了多轮交互中特有的误差复合效应,将课程学习思想从“样本难度”转化为“时间维度上的轨迹深度”,将长程依赖问题拆解为渐进式短程学习。