news 2026/2/12 6:18:36

全新Prompt-R1框架:小模型+大模型协作,推理性能大幅提升!GRPO算法助力,实现零成本跨任务优化!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
全新Prompt-R1框架:小模型+大模型协作,推理性能大幅提升!GRPO算法助力,实现零成本跨任务优化!

简介

文章提出Prompt-R1框架,一种端到端强化学习方法,将小型LLM训练成"提示智能体",与大型LLM进行多轮对话协作。通过双约束奖励机制优化提示质量和答案准确性,使用GRPO算法进行token级策略更新。训练后小型模型可即插即用搭配不同大模型,实现零额外成本、跨任务泛化的自动提示优化,有效提升任务解决性能。

题目:Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning

创新点

  • 提出了Prompt-R1,这是一个新颖的端到端强化学习框架,通过小规模大型语言模型(LLM)与大规模LLM的协作,自动优化提示生成,以提高任务解决的性能。
  • 设计了一种双约束奖励机制,同时优化正确性、生成质量和推理准确性。这种奖励机制确保了整个交互过程中提示的质量和最终答案的准确性。

方法

本文提出 Prompt-R1,一种端到端强化学习框架,把小型 LLM 训练成“提示智能体”,与任意大型 LLM 进行多轮对话式协作:小型模型在每一轮先内部思考,再输出一段自然语言提示;大型模型仅作为黑箱环境返回回答,双方历史被完整保留并作为下一轮状态。整个轨迹用“格式-答案”双约束奖励同时监督中间提示是否合规、最终答案是否正确,采用 GRPO 强化学习算法直接对小型模型做 token 级策略更新,无需梯度回传至大型模型。训练完成后,小型模型可即插即用地搭配不同大型模型推理,实现零额外成本、跨任务泛化的自动提示优化。

Prompt-R1智能体与大型语言模型多轮协作示例

本图展示了一个小型LLM智能体与大型LLM环境协作解决数学问题的完整多轮对话过程:智能体先对题目进行简要解释并生成首轮提示,大型模型返回初步计算结果;随后智能体根据回应逐步思考、追问和验证,通过“思考-提示-回应”三轮迭代不断修正和确认,最终得出“18”这一正确答案。

四种LLM增强范式的全景对照

本图用四格漫画式对比把“人类-LLM直接对话、传统提示工程、监督微调、以及本文Prompt-R1”四种范式放在同一画面:左上角是人类凭经验手写提示,碎片化且低效;右上角是自动提示优化(APO),用算法在句子层面做搜索,仍把LLM当静态黑箱;左下角是监督微调(SFT),需要大量标注且模型参数被锁定;右下角给出Prompt-R1,把小型LLM训练成会“自己思考-自己提问”的智能体,与任意大型LLM进行多轮对话,像教练带选手一样实时引导推理,全程用强化学习端到端更新,既不用改大模型参数,也不依赖人工提示,形成资源节省、即插即用、任务通用的协作闭环。

不同视觉编码器在关键图像区域的注意力热图对比

本图展示了在视觉-语言模型(VLM)“幻觉”评估中,采用不同注意力机制(SigLIP、CLIP、ConvNext)对图像块关注度的显著性图(saliency map)对比。三行分别对应三幅测试图像,每行从左到右依次为:原图、SigLIP、CLIP、ConvNext产生的显著性热图。热图颜色越红,表示模型越聚焦于该区域。整体可见,SigLIP的注意力分布最贴近人类对物体关键部分的直觉,显著性集中且与物体轮廓高度重合;CLIP次之,虽能大致定位目标但存在分散亮点;ConvNext则出现明显“飘移”,热图与目标区域错位,甚至聚焦背景。结果直观表明,在减少幻觉、提升视觉-语言对齐方面,SigLIP提供的视觉信号最具判别力,而ConvNext的局部归纳偏差易导致模型关注无关背景,从而生成错误描述。该图从可视化角度验证了论文核心结论:视觉编码器的注意力质量直接决定VLM是否产生幻觉,SigLIP的注意力机制在抑制幻觉方面显著优于传统CLIP与ConvNext。

实验

本表在整页尺度上比较了五种视觉-语言模型(BLIVA、InstructBLIP、mPLUG-Owl、LLaVA-1.5、Otter) 在 16 类对象与 9 类关系幻觉评测中的平均精度(mAP@0.5)。

它同时给出了“仅替换视觉编码器”的消融结果:原始 CLIP-ViT 作为视觉骨干的模型得分充当基线,而将其直接换成 SigLIP 或 ConvNext 后重新在相同设定下测试。表格显示,无论原模型体量大小,SigLIP 带来的整体 mAP 平均提升约 4–6 个百分点,其中对“计数”“颜色”“材料”等细粒度对象属性的增益最为显著,不少类别从 30 余分跃至 50 分以上;相反,ConvNext 普遍导致 1–3 分下降,尤其在“关系”维度上衰退明显。横向对比可见,经过 SigLIP 增强后,原本排名靠后的 BLIVA 甚至反超未改进的 LLaVA-1.5,说明视觉编码器的选择比模型架构本身更能决定幻觉抑制效果。

纵向观察同一骨干在不同模型上的迁移性,SigLIP 的增益稳定出现,而 ConvNext 的负向波动亦高度一致,进一步验证了论文观点:视觉端注意力质量越高,语言模型接收到的伪影越少,幻觉自然下降;表格用量化数据直观证明 SigLIP 是当前减轻 VLM 幻觉的最有效“即插即用”方案。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!