【论文阅读】Learning from Long-Term Engagement: Adaptive Tutoring Dialogue Planning for Personalized Education
摘要
scaffold
支架式教学 或 教学支架
例:The teacher provided scaffolds for the students. →老师为学生提供了学习支架(教学辅助)
局限性:
1.LLM缺乏对学生长期学习过程的关注,难以提供符合学生个性化需求的教学支架
2.合适的教学支架需要复杂的推理,计算成本高
LEAP:长期教育适应规划系统
1.通过认知状态(cognitive state),捕捉学生长期学习进度
2.collaboration of direct planning(直接规划) and thoughtful reasoning(深思熟虑的推理)提高效率
3.提出长期教育档案数据集 LEAD
引言
contributions:
1.提出LEAP框架,包括认知状态提取和支架式教学模块
2.提出LEAD数据集,基于真实世界不同问题和课程的学生反映的教育对话数据集
3.不同数据集下框架的有效性
LLM先根据历史对话总结摘要,了解当前学生对不同知识点的掌握情况,并将记录保存在Cognitive Status Memory作为长久保存。在解决确定的知识点时候,采用Enlighten Scaffold快速直接帮助学生;解决不确定的知识点时,LLM先思考找到能给学生最大启发,效果最好的scaffold
相关工作
Dialogue Tutoring Datasets
手动创建—>标注成本高,伸缩困难
LLM驱动的合成数据生成,LLM模拟生成教学对话,解决扩展问题
但是现有方法都很少关注学生长期学习过程表现,尤其是同一学生不同问题的表现
LLM-enhanced Tutoring Systems
通过prompt和微调,大模型具备老师能力,但是容易直接给出答案,不符合启发式教学法;即使懂得教学,AI老师存在健忘问题,只看当前对话,忽略长期辅导对话,难以提供个性化辅导
数据集的建立
数据收集
在线教育平台PTA真实的多轮提交的数据集
“同一道编程题目的多次提交”“不同编程题目的提交”
通过分析多轮代码提交之间的差异,判断学生的学习状态变化,分析代码修改过程,模拟教师如何指导学生对话,从而构建LEAD长期辅导对话数据集
(哈哈感觉很奇妙,因为我也用了这个平台完成编程任务)
数据集构建过程
把真实学生代码转成教学对话数据
题目内容 + 学生多轮代码提交 → 分析学生哪里错、怎么改 → 模拟教师如何指导 → 生成教师-学生对话
Dean-Teacher-Student多智能体框架
Teacher Agent:根据题目内容,学生代码,判断学生疑难点,给出合适的指导
Student-Agent:负责模拟针对指导的学生回应
Dean Agent:监督对话
1.problem content题目内容
multi-round submission学生多轮提交
2.生成problem analysis问题分析
3.code diff捕捉代码差异反映学生对问题理解和学习状态的变化
4.模拟师生对话,教学支架策略scaffolding strategy
inspire
introduce
enlighten
summarize
弊端:模型可能学到的是:“GPT 风格的教学对话分布”而不是真人教师真实教学策略
泛化能力有限(开放性问题无固定答案;跨学科;学习状态建模)
方法
问题定义
每轮对话d由学生response和教师guidance组成,截止当前的所有轮对话构成上下文C,不同的历史对话C集合成历史对话集合H
教学过程满足马尔可夫过程
目标函数
找到一条路径πθ使得不同状态和动作下的奖励最大(序列累计奖励不是单步奖励)
研究框架
1.cognitive state extraction 认知状态提取
Memory Storage & Update
对于历史对话,由大模型生成核心摘要;
将摘要编码存入Memory Bank
超过一定天数的记忆会被删除来维护时效性
降低存储空间,提高查找效率
Memory Retrieval
检索相关对话时要考虑相似度和信息有效性
语义相似度Xsem衡量对话上下文与历史摘要的接近程度;
概念覆盖度Xover检查当前对话涉及的名词与历史的重叠情况(根据多少判断参考价值)
最终检索评分x=λ(xover+xsem)把语义相似度和概念覆盖度加权,同时考虑时间衰减,算出每条历史摘要的总分。选择得分最高的前k条记忆作为参考
2.scaffolding instruction planning支架指导规划
direct planner+MCTS planners根据学生认知状态和上下文,推荐合适的指导指令支架
Direct Planner
大语言模型使用策略网络(策略梯度法优化)和价值网络(强化学习法)用于动作预测和状态评估
根据当前对话和学生认知状态快速生成教学指令
同时训练优化策略网络和价值网络
MCTS Planner
模型对学生认知状态不确定时,调用MCTS
Planner模拟多个教学策略的结果推测出最有效的教学指导
不直接训练策略网络,主要用于深度推理多轮对话,
选择-----扩展----评估----回传
所以整个流程就是,学生当前会话输入到记忆存储与更新库中,通过重要内容提取之后存放在memory bank里面,再去检索memory bank里面过去的内容与当前对话语义相似的,内容重叠的部分进行总结,得到学生对这个知识点的掌握状态,把状态和当前对话一并送入direct planner 如果置信度高,就快速生成dg,如果置信度低就送到mcts中进行深度推理得到dg
LLM模型起到什么作用?
在认知状态提取模块,LLM生成核心摘要信息用作memory bank存储;将相关历史对话整合成认知状态向量m(非结构化文本–结构化)
在直接规划器中,LLM模拟学生反馈用于离线强化学习训练;
在MCTS规划器中,模拟教师学生互动,预测支架效果
不足之处:
跨学科泛化能力!
LLM依赖多,出现幻觉!
单支架策略!
评估指标差距不大!