关于GR-RL与PI-0.6的一些想法-洪萨配资

原始文章发布在知乎，欢迎移步：《关于GR-RL与PI-0.6的一些想法》

最近学习了字节跳动gr-1/gr-2/gr-3/gr-rl（关于gr-rl：文档1和文档2）系列工作，再结合以前看的pi系列模型或算法，产生了一些想法，想法可能不成熟甚至有错误，仅在此记录总结一下，以便回顾。

1，gr-1/gr-2是基于视频生成的技术路线去设计，核心就是通过未来帧的预测，一方面可以利用海量的视频数据，另一方面可以学习到一些语义和操作的通用知识。而gr-3完全换了路线，切换到了pi0/pi0.5这种基于VLM+action expert(flow matching)的路线上，是否说明在技术路线上前者不如后者呢？

2，两个系列模型发展路线：

pi0->pi0.5->pi0.6(RL)
gr-1->gr-2->gr-3->gr-rl
pi0.5与gr-3，pi0.6与gr-rl这两两之间的思路已经相当接近了，有一种殊途同归的感觉，读相关的技术报告确实可以学习到很多。字节的开源精神再强一些，把相关的代码开源一下，可以让大家复现就更好了。

3，今天详细的阅读了gr-rl论文，它是based在gr-3的基础之上，有一些收获吧：

3.1，通过时序差分(TD)的思想去训练一个critic网络，并且先通过数据离线进行训练，这点和pi0.6中的思路是一样的。离线先训练critic应该可以减少RL整体的训练时间。有些细节不同之处是：pi0.6是训练了一个V函数，而gr-rl训练了一个Q函数，另外gr-rl训练的Q函数输出是一个分布，而不是传统强化学习中的一个值，论文中说分布更加鲁棒。

3.2，策略网络的训练，gr-rl与pi0.6差别比较大，最近也看了一些如何在flow matching基础之上让强化学习去训练它的一些方法，例如：《 π RL(piRL)算法支持用强化学习方法训练π 0/π 0.5(pi0/pi0.5)》。其实大家所做的目标只有一个，就是如何将RL与flow matching结合，一句话说核心点：

pi0.6是通过训练好的critic网络生成一个condition去sft监督训练策略网络；
gr-rl不会动已经sft训练好的策略网络，而是对flow matching初始时的那个原始噪声进行了优化，通过一个噪声网络
去预测这个初始噪声，同时也增加了一个Q网络
对噪声策略输出的噪声进行打分。在前向推理的时候，不再从高斯采样，而是让 π_θ′ 根据当前观测直接给出最优噪声 ε，再由冻结的流模型一步（或少量几步）解码成动作。整体上，此方案相当于在flow matching基础之上，找到了一个突破口（初始噪声），在这个突破口上添加了一个外挂，在强化学习中去训练这个外挂，外挂外的其它部分不参与训练。论文中相关的描述如下：

pi0.6/gr-rl/piRL三者的思路有没有优劣之分，目前还不太清楚，后续有时候看一下相关的参考文献或亲自尝试一下。如果各位有相关信息，希望能不吝赐教！
3.3，双buffer的设计类似于：《具身智能hil-serl强化学习算法在lerobot机械臂上复现》中的双buffer。

3.4，通过模仿学习，数据增强，强化学习协同的方式持续提升效果，短期有可能会是一个主流的范式。

2025如何选择适合企业规模和需求的财税外包服务

随着企业不断发展，财税管理已成为不可忽视的重要部分。尤其对于中小型企业来说，如何选择一款既能保证税务合规又能够提供个性化解决方案的财税服务显得尤为重要。在众多的财税服务提供商中，如何在定制化和标准化服务之间做出正确选择？本文将帮助您解答这一问题，并为您推荐…

李华

【紧急必读】R Shiny多模态更新卡顿？这4个性能优化方案必须掌握

第一章：R Shiny多模态更新卡顿问题的现状与挑战在构建交互式数据可视化应用时，R Shiny 成为数据科学家和开发者的首选工具。然而，随着应用复杂度提升，尤其是涉及多模态输入（如文件上传、滑块调节、下拉选择等&#xff…

李华

《长安二十四计》盛大启幕，徐璐担纲女主，携手成毅开启长安风云

古装权谋大剧《长安二十四计》于12月12日正式开播，登陆央视八套黄金强档，并在优酷、咪咕等网络平台同步上线，拉开了这幅描绘盛唐智计风云的磅礴画卷。该剧由成毅、徐璐分别担任男女主，更云集了刘奕君、王劲松、倪大红、张涵予等十…

李华

【Excel VBA 编程】第59讲：VBA正则的隐形助手——非捕获组(?:)

上一期讲到了捕获组，它尽职尽责地找到我们关心的文本模式，并将其分门别类地记录到 SubMatches 集合中。然而，当匹配逻辑变得复杂时，这位“助手”过于细致的记录有时反而会成为一种负担什么是非捕获组为了卸下负担，解决…

李华

构建高效协作的软件测试团队：策略与实践

在当今快速迭代的软件开发环境中，测试团队不再是简单的“bug发现者”，而是保障产品质量、推动技术创新的关键力量。随着敏捷开发、DevOps和持续集成/持续部署（CI/CD）的普及，测试工作面临着更高的效率要求和更复杂的协作…

李华

为什么你的Rust PHP扩展总是崩溃？深入调试核心函数的3大方法

第一章：为什么你的Rust PHP扩展总是崩溃？在尝试将 Rust 与 PHP 集成以提升性能时，许多开发者遭遇运行时崩溃、段错误或不可预测的行为。根本原因往往并非语言本身的问题，而是对 PHP 扩展生命周期和内存管理模型的误解。不正确的内…

李华