【论文阅读】Learning from Long-Term Engagement: Adaptive Tutoring Dialogue Planning for Personalized Educa-洪萨配资

【论文阅读】Learning from Long-Term Engagement: Adaptive Tutoring Dialogue Planning for Personalized Education

摘要

scaffold
支架式教学或教学支架
例：The teacher provided scaffolds for the students. →老师为学生提供了学习支架（教学辅助）

局限性：
1.LLM缺乏对学生长期学习过程的关注，难以提供符合学生个性化需求的教学支架
2.合适的教学支架需要复杂的推理，计算成本高

LEAP：长期教育适应规划系统
1.通过认知状态（cognitive state），捕捉学生长期学习进度
2.collaboration of direct planning（直接规划） and thoughtful reasoning（深思熟虑的推理）提高效率
3.提出长期教育档案数据集 LEAD

引言

contributions：
1.提出LEAP框架，包括认知状态提取和支架式教学模块
2.提出LEAD数据集，基于真实世界不同问题和课程的学生反映的教育对话数据集
3.不同数据集下框架的有效性

LLM先根据历史对话总结摘要，了解当前学生对不同知识点的掌握情况，并将记录保存在Cognitive Status Memory作为长久保存。在解决确定的知识点时候，采用Enlighten Scaffold快速直接帮助学生；解决不确定的知识点时，LLM先思考找到能给学生最大启发，效果最好的scaffold

数据集的建立

数据收集
在线教育平台PTA真实的多轮提交的数据集
“同一道编程题目的多次提交”“不同编程题目的提交”
通过分析多轮代码提交之间的差异，判断学生的学习状态变化，分析代码修改过程，模拟教师如何指导学生对话，从而构建LEAD长期辅导对话数据集

（哈哈感觉很奇妙，因为我也用了这个平台完成编程任务）

数据集构建过程
把真实学生代码转成教学对话数据
题目内容 + 学生多轮代码提交 → 分析学生哪里错、怎么改 → 模拟教师如何指导 → 生成教师-学生对话

Dean-Teacher-Student多智能体框架
Teacher Agent：根据题目内容，学生代码，判断学生疑难点，给出合适的指导
Student-Agent：负责模拟针对指导的学生回应
Dean Agent：监督对话

1.problem content题目内容
multi-round submission学生多轮提交
2.生成problem analysis问题分析
3.code diff捕捉代码差异反映学生对问题理解和学习状态的变化
4.模拟师生对话，教学支架策略scaffolding strategy
inspire
introduce
enlighten
summarize

弊端：模型可能学到的是：“GPT 风格的教学对话分布”而不是真人教师真实教学策略
泛化能力有限（开放性问题无固定答案；跨学科；学习状态建模）

方法

问题定义
每轮对话d由学生response和教师guidance组成，截止当前的所有轮对话构成上下文C，不同的历史对话C集合成历史对话集合H

教学过程满足马尔可夫过程

目标函数
找到一条路径π_θ使得不同状态和动作下的奖励最大（序列累计奖励不是单步奖励）

研究框架
1.cognitive state extraction 认知状态提取

Memory Storage & Update
对于历史对话，由大模型生成核心摘要；
将摘要编码存入Memory Bank
超过一定天数的记忆会被删除来维护时效性
降低存储空间，提高查找效率

Memory Retrieval
检索相关对话时要考虑相似度和信息有效性
语义相似度X_sem衡量对话上下文与历史摘要的接近程度；
概念覆盖度X_over检查当前对话涉及的名词与历史的重叠情况（根据多少判断参考价值）

最终检索评分x=λ(x_over+x_sem)把语义相似度和概念覆盖度加权，同时考虑时间衰减，算出每条历史摘要的总分。选择得分最高的前k条记忆作为参考

2.scaffolding instruction planning支架指导规划
direct planner+MCTS planners根据学生认知状态和上下文，推荐合适的指导指令支架
Direct Planner
大语言模型使用策略网络（策略梯度法优化）和价值网络（强化学习法）用于动作预测和状态评估
根据当前对话和学生认知状态快速生成教学指令
同时训练优化策略网络和价值网络

MCTS Planner
模型对学生认知状态不确定时，调用MCTS
Planner模拟多个教学策略的结果推测出最有效的教学指导
不直接训练策略网络，主要用于深度推理多轮对话，
选择-----扩展----评估----回传

所以整个流程就是，学生当前会话输入到记忆存储与更新库中，通过重要内容提取之后存放在memory bank里面，再去检索memory bank里面过去的内容与当前对话语义相似的，内容重叠的部分进行总结，得到学生对这个知识点的掌握状态，把状态和当前对话一并送入direct planner 如果置信度高，就快速生成dg，如果置信度低就送到mcts中进行深度推理得到dg

LLM模型起到什么作用？
在认知状态提取模块，LLM生成核心摘要信息用作memory bank存储；将相关历史对话整合成认知状态向量m（非结构化文本–结构化）
在直接规划器中，LLM模拟学生反馈用于离线强化学习训练；
在MCTS规划器中，模拟教师学生互动，预测支架效果

不足之处：
跨学科泛化能力！
LLM依赖多，出现幻觉！
单支架策略！
评估指标差距不大！