news 2026/6/26 3:31:23

一起聊聊JustRL,如何只用最基础的 RL 配方也能达到不错的性能?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一起聊聊JustRL,如何只用最基础的 RL 配方也能达到不错的性能?

青稞社区:https://qingkeai.online/
原文:https://mp.weixin.qq.com/s/so8r31sbi1GU4uILKQHU0g

如果有人说:不用分阶段训练、不搞课程学习、不动态调参,只用最基础的 RL 配方也能达到不错的性能,会是怎样的结果?

清华团队用两个 1.5B 模型做了这个尝试。结果在 9 个数学推理基准上达到了 54.87% 和64.32% 的新基线,算力只用了一半,训练过程也很平稳,4000步没遇到什么大问题。

更有趣的是,当我们试着加入一些"应该有用"的优化时,性能反而下降了。也许在某些情况下,简单的方法充分训练后,效果可能比我们预期的要好。这个工作最大的 novelty,也许就在于没有 novelty。

2月3日(周二)晚8点,青稞社区和减论平台将联组织 #青稞Talk 第107期,清华大学博士生何秉翔,将直播分享《JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线》。

分享嘉宾

何秉翔,清华大学博士生,导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习,曾在 ACL、ICML、NeurIPS 等人工智能国际顶级会议发表论文,谷歌学术引用量超1000次。

主题提纲

JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线

1、RL 训练的 Trick 方法
2、极致简洁的 JustRL 及实现
3、消融实验及性能对比
4、AMA (Ask Me Anything)环节

直播时间

2月3日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行进行直播,欢迎预约观看!

Bilibili 直播间:
https://live.bilibili.com/32145701

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/22 4:29:21

基于时空风险场的道路自动驾驶车辆预测轨迹规划

基于时空风险场的道路自动驾驶车辆预测轨迹规划 下面复现这篇关于自动驾驶轨迹规划的论文《基于时空风险场的道路自动驾驶车辆预测轨迹规划》,实现核心算法。 1. 算法概述 该论文提出了一种基于时空风险势场的预测轨迹规划方法,主要特点是将轨迹生成和风险评估解耦为两个并…

作者头像 李华
网站建设 2026/6/22 18:43:10

PostgreSQL 核心原理:读不阻塞写,写不阻塞读的秘密

文章目录 一、传统锁模型 vs MVCC:为什么需要多版本?1.1 传统锁模型的局限1.2 MVCC 的核心思想1.3 PostgreSQL 中 MVCC 的实现基础:元组头(HeapTupleHeader)1.4 事务快照(Snapshot):…

作者头像 李华
网站建设 2026/6/17 20:40:22

基于SpringBoot+Vue的健康管理系统

🍅 作者主页:Selina .a 🍅 简介:Java领域优质创作者🏆、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行交流合作。 主要内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据…

作者头像 李华
网站建设 2026/6/20 20:48:38

【IEEE出版、快速EI检索】2026年人工智能、教育技术与应用国际学术会议(AIETA 2026)

随着人工智能(AI)的迅速发展,其与教育的深度融合正在重塑全球教育生态系统。诸如智能辅导系统、个性化学习和教育大数据分析等创新应用为教育公平、质量提升和教学变革开辟了新的途径。为促进全球学者、教育工作者和技术专家之间的跨学科合作…

作者头像 李华
网站建设 2026/6/26 3:40:20

A股大洗牌:六记重拳整顿量化交易,散户的春天来了?

一场迟来的“正义”对于在A股市场中拼搏的普通散户而言,面对拥有顶级硬件和速度优势的高频量化交易,时常会有一种无力感和不公平感。然而,一场颠覆性的游戏规则大改已经落地。监管机构祭出组合重拳,旨在给那些靠技术优势在市场中“…

作者头像 李华
网站建设 2026/6/25 1:45:44

双向链表是什么?和单向链表区别详解

双向链表是数据结构中链表的一种重要形式,它在每个节点中不仅包含指向下一个节点的指针,还包含指向前一个节点的指针。这种设计使得双向链表在数据操作上比单向链表更加灵活,但也带来了额外的存储开销。在实际开发中,双向链表常用…

作者头像 李华