news 2026/5/7 17:16:05

【论文笔记•(多智能体)】A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文笔记•(多智能体)】A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making

【论文笔记•(多智能体)】A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making

1 一句话总结

本文提出KAMAC(知识驱动的自适应多智能体协作框架),旨在解决现有大语言模型(LLMs)多智能体协作在医疗决策中存在的静态预分配角色局限,通过初始咨询、知识驱动协作讨论(动态检测知识缺口并招募专家)和最终决策三阶段,实现灵活可扩展的跨专科协作;在 MedQA 和 Progn-VQA 两大医疗基准数据集上,KAMAC 基于 GPT-4.1-mini 和 DeepSeek-R1 模型,在准确率(Acc)、精确率(Prec)等四项核心指标上显著优于单智能体和先进多智能体方法(如 MDAgents),尤其在癌症预后等复杂临床场景中表现突出,且平均专家招募数量比 MDAgents 低 53%-56%,兼具高准确性与成本效益。

2 论文基本信息

🏫单位:穆罕默德·本·扎耶德人工智能大学

🔖会议:EMNLP 2025 Main

阅读时间:2025.12.14

🛤️论文地址:A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making - ACL Anthology

🔠代码:XiaoXiao-Woo/KAMAC: A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making

3 研究的核心问题和背景

  1. 医疗决策特性:诊断、预后等临床任务需整合多专科知识,传统依赖多学科团队(MDTs),而 LLMs 凭借强推理能力在医疗决策中展现潜力。
  2. 现有技术瓶颈
    • 单智能体:难以覆盖复杂跨专科知识;
    • 多智能体协作(如 MDAgents、多数投票):采用静态预分配角色,无法动态检测知识缺口(KG),协作易陷入孤立观点堆砌,适配性不足。
  3. 研究目标:提出自适应多智能体框架,实现专家团队动态扩展,提升医疗决策的准确性与灵活性。

4 框架及具体实现


如上图所示,框架主要包含三个阶段,总结如下表所示:

4.1 初始咨询


在此阶段,会给一个临床问题 Q,KAMAC 首先从一个预定义的专家库中招募一个或多个专家代理👨‍⚕️来执行初始查询。每个代理有不同的临床角色,这有提示词P 1 P_{1}P1设置。然后由提示词P 2 P_{2}P2来指示专家代理独立分析问题,产生诊断意见或治疗建议。

4.2 知识驱动协作讨论


专家代理之间进行多轮讨论,每轮讨论开始时,专家交换他们的观点,使用代理交互提示P 3 P_{3}P3让他们互相批评对方的回答,逐步解决分歧。在每轮讨论结束时,专家会被提示评估是否存在知识缺口(knowledge gap),如果有这种缺口,那么会继续针对性的招募专家来解决发现的不足。新招募的代理接收当前讨论的上下文历史作为少样本学习输入,并相应一开始的问题。

在整个讨论的过程中,所有的代理都通过提示词P 6 P_{6}P6来更新各自的推理。整个过程一个持续到达到以下两个条件中的其中一个条件:
1️⃣通过使用提示词P 3 P_{3}P3达成共识。
2️⃣达到最大讨论次数。

4.3 决策制定


在最后阶段,KAMAC调用一个调节代理(通常是一个通用的大型语言模型)来生成最终决策。主持人接收代理的最新评论集和完整的讨论历史,并通过决策提示合成响应(P 7 P_{7}P7)。

5 实验

5.1 数据集

1️⃣MedQA:为医学选择题,涵盖多科医疗知识,使用测试集中的 1273 个样本。
2️⃣Progn-VQA:为医学视觉问答对,头颈部癌症 CT 影像 + 结构化临床数据(如 TNM 分期、治疗方案),使用测试集中的 750 个样本。

5.2 实验细节

  • 模型:主要使用 GPT-4.1-mini(温度 = 0,确保确定性输出),额外验证 DeepSeek-R1;
  • 对比方法:单智能体(含 CoT)、多数投票(5 名专家)、共识法、MDAgents(问题驱动招募);
  • 关键参数:最大讨论轮数 R=3,初始专家数 = 1。

5.3 评估指标

5.4 实验结果

1️⃣使用GPT-4.1mini 的结果:

2️⃣使用DeepSeek-R1和GPT-4.1-mini对MedQA和program - vqa进行基线和KAMAC在四个指标及其平均值上的性能比较:

3️⃣初始代理数量的设置比较:

这表明,一开始就引入多个代理可能效果并不好,会在早期引入重叠或不相关的视角,从而增加后续决策中的冗余和噪声。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 8:14:07

震动微型电机的伏安特性

简 介: 本文研究了微型震动电机的伏安特性,使用可编程电源DG1766测试了0-5V电压范围内电流变化。结果显示:电压低于0.4V时电流呈线性关系,超过0.4V后电机开始震动,电流随电压快速上升。与普通直流电机不同,…

作者头像 李华
网站建设 2026/5/3 3:30:09

免费获取Qwen3-32B镜像的方法与合法使用建议

免费获取Qwen3-32B镜像的方法与合法使用建议 在当前大语言模型(LLM)快速演进的浪潮中,一个现实问题始终困扰着中小企业和独立开发者:如何在有限预算下获得接近顶级闭源模型能力的AI引擎?GPT-4级别的服务虽强&#xff0…

作者头像 李华
网站建设 2026/5/6 17:16:21

渗透测试行业术语扫盲(第十三篇)—— 安全运营与审计类

🏢 前言:从“部署产品”到“运营安全”——构建安全的神经中枢 当企业部署了琳琅满目的安全产品(防火墙、WAF、EDR……)后,真正的挑战才刚刚开始:如何让这些“孤岛”产生联动?如何从海量日志中识…

作者头像 李华
网站建设 2026/5/2 13:59:13

基于SpringBoot的实验管理系统的设计与实现

基于SpringBoot的实验管理系统的设计与实现 第一章 系统开发背景与现实意义 高校与科研机构的实验室是教学与科研的核心场所,但传统实验管理模式存在诸多痛点:实验设备预约依赖线下登记或零散软件,易出现时段冲突;耗材采购与领用缺…

作者头像 李华
网站建设 2026/4/17 10:10:27

基于SpringBoot的小型哺乳动物宠物诊所管理系统

基于SpringBoot的小型哺乳动物宠物诊所管理系统设计与实现 第一章 系统开发背景与现实意义 随着小型哺乳动物宠物(仓鼠、兔子、龙猫等)饲养量激增,专业诊所的需求日益迫切,但传统管理模式存在诸多痛点:这类宠物体型小、…

作者头像 李华
网站建设 2026/5/3 9:17:11

基于SpringBoot的校园流浪动物救助平台

基于SpringBoot的校园流浪动物救助平台设计与实现 第一章 系统开发背景与现实意义 校园内流浪猫、流浪狗等动物数量逐年增多,既存在安全隐患(如抓伤学生、传播病菌),也面临生存困境(食物短缺、伤病无治)。当…

作者头像 李华