news 2026/4/28 17:05:02

【论文阅读】Learning from Long-Term Engagement: Adaptive Tutoring Dialogue Planning for Personalized Educa

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文阅读】Learning from Long-Term Engagement: Adaptive Tutoring Dialogue Planning for Personalized Educa

【论文阅读】Learning from Long-Term Engagement: Adaptive Tutoring Dialogue Planning for Personalized Education

摘要

scaffold
支架式教学 或 教学支架
例:The teacher provided scaffolds for the students. →老师为学生提供了学习支架(教学辅助)

局限性:
1.LLM缺乏对学生长期学习过程的关注,难以提供符合学生个性化需求的教学支架
2.合适的教学支架需要复杂的推理,计算成本高

LEAP:长期教育适应规划系统
1.通过认知状态(cognitive state),捕捉学生长期学习进度
2.collaboration of direct planning(直接规划) and thoughtful reasoning(深思熟虑的推理)提高效率
3.提出长期教育档案数据集 LEAD

引言

contributions:
1.提出LEAP框架,包括认知状态提取和支架式教学模块
2.提出LEAD数据集,基于真实世界不同问题和课程的学生反映的教育对话数据集
3.不同数据集下框架的有效性

LLM先根据历史对话总结摘要,了解当前学生对不同知识点的掌握情况,并将记录保存在Cognitive Status Memory作为长久保存。在解决确定的知识点时候,采用Enlighten Scaffold快速直接帮助学生;解决不确定的知识点时,LLM先思考找到能给学生最大启发,效果最好的scaffold

相关工作

Dialogue Tutoring Datasets
手动创建—>标注成本高,伸缩困难
LLM驱动的合成数据生成,LLM模拟生成教学对话,解决扩展问题
但是现有方法都很少关注学生长期学习过程表现,尤其是同一学生不同问题的表现

LLM-enhanced Tutoring Systems
通过prompt和微调,大模型具备老师能力,但是容易直接给出答案,不符合启发式教学法;即使懂得教学,AI老师存在健忘问题,只看当前对话,忽略长期辅导对话,难以提供个性化辅导

数据集的建立

数据收集
在线教育平台PTA真实的多轮提交的数据集
“同一道编程题目的多次提交”“不同编程题目的提交”
通过分析多轮代码提交之间的差异,判断学生的学习状态变化,分析代码修改过程,模拟教师如何指导学生对话,从而构建LEAD长期辅导对话数据集

(哈哈感觉很奇妙,因为我也用了这个平台完成编程任务)

数据集构建过程
把真实学生代码转成教学对话数据
题目内容 + 学生多轮代码提交 → 分析学生哪里错、怎么改 → 模拟教师如何指导 → 生成教师-学生对话

Dean-Teacher-Student多智能体框架
Teacher Agent:根据题目内容,学生代码,判断学生疑难点,给出合适的指导
Student-Agent:负责模拟针对指导的学生回应
Dean Agent:监督对话

1.problem content题目内容
multi-round submission学生多轮提交
2.生成problem analysis问题分析
3.code diff捕捉代码差异反映学生对问题理解和学习状态的变化
4.模拟师生对话,教学支架策略scaffolding strategy
inspire
introduce
enlighten
summarize

弊端:模型可能学到的是:“GPT 风格的教学对话分布”而不是真人教师真实教学策略
泛化能力有限(开放性问题无固定答案;跨学科;学习状态建模)

方法

问题定义
每轮对话d由学生response和教师guidance组成,截止当前的所有轮对话构成上下文C,不同的历史对话C集合成历史对话集合H

教学过程满足马尔可夫过程

目标函数
找到一条路径πθ使得不同状态和动作下的奖励最大(序列累计奖励不是单步奖励)

研究框架
1.cognitive state extraction 认知状态提取

Memory Storage & Update
对于历史对话,由大模型生成核心摘要;
将摘要编码存入Memory Bank
超过一定天数的记忆会被删除来维护时效性
降低存储空间,提高查找效率

Memory Retrieval
检索相关对话时要考虑相似度和信息有效性
语义相似度Xsem衡量对话上下文与历史摘要的接近程度;
概念覆盖度Xover检查当前对话涉及的名词与历史的重叠情况(根据多少判断参考价值)

最终检索评分x=λ(xover​+xsem​)把语义相似度和概念覆盖度加权,同时考虑时间衰减,算出每条历史摘要的总分。选择得分最高的前k条记忆作为参考

2.scaffolding instruction planning支架指导规划
direct planner+MCTS planners根据学生认知状态和上下文,推荐合适的指导指令支架
Direct Planner
大语言模型使用策略网络(策略梯度法优化)和价值网络(强化学习法)用于动作预测和状态评估
根据当前对话和学生认知状态快速生成教学指令
同时训练优化策略网络和价值网络

MCTS Planner
模型对学生认知状态不确定时,调用MCTS
Planner模拟多个教学策略的结果推测出最有效的教学指导
不直接训练策略网络,主要用于深度推理多轮对话,
选择-----扩展----评估----回传

所以整个流程就是,学生当前会话输入到记忆存储与更新库中,通过重要内容提取之后存放在memory bank里面,再去检索memory bank里面过去的内容与当前对话语义相似的,内容重叠的部分进行总结,得到学生对这个知识点的掌握状态,把状态和当前对话一并送入direct planner 如果置信度高,就快速生成dg,如果置信度低就送到mcts中进行深度推理得到dg

LLM模型起到什么作用?
在认知状态提取模块,LLM生成核心摘要信息用作memory bank存储;将相关历史对话整合成认知状态向量m(非结构化文本–结构化)
在直接规划器中,LLM模拟学生反馈用于离线强化学习训练;
在MCTS规划器中,模拟教师学生互动,预测支架效果

不足之处:
跨学科泛化能力!
LLM依赖多,出现幻觉!
单支架策略!
评估指标差距不大!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 17:01:20

设备树详解之概览

文章目录一、设备树的整体样子二、一个**标准节点**长什么样?逐段解释1. 节点名格式2. compatible(驱动匹配)3. reg(硬件地址)4. status(是否启用)5. 引用其他节点(时钟、中断、引脚…

作者头像 李华
网站建设 2026/4/28 16:53:56

Ultimate Minecraft启动器:离线畅玩的终极解决方案

Ultimate Minecraft启动器:离线畅玩的终极解决方案 【免费下载链接】Launcher Offline Minecraft launcher. 项目地址: https://gitcode.com/gh_mirrors/lau/Launcher 想要摆脱官方Minecraft启动器的限制,享受完全自由的游戏体验吗?Ul…

作者头像 李华
网站建设 2026/4/28 16:49:21

2026年最新B站视频下载教程:3分钟掌握BiliTools跨平台下载神器

2026年最新B站视频下载教程:3分钟掌握BiliTools跨平台下载神器 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTool…

作者头像 李华
网站建设 2026/4/28 16:43:45

CrewAI实战指南:构建多智能体协作系统的完整教程

CrewAI实战指南:构建多智能体协作系统的完整教程 一、什么是CrewAI? CrewAI是一个开源的多智能体协作框架,专为构建复杂的AI工作流而设计。它允许开发者创建多个具有不同角色和技能的AI Agent,并通过精心设计的任务分配机制,让它们协同工作完成复杂目标。 核心优势 角色…

作者头像 李华