news 2026/6/15 18:27:58

从AIG保险工程师到北大AI教授:一个“业余爱好者“如何用10年登上强化学习顶峰

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从AIG保险工程师到北大AI教授:一个“业余爱好者“如何用10年登上强化学习顶峰

从AIG保险工程师到北大AI教授:一个"业余爱好者"如何用10年登上强化学习顶峰

导语:他在保险公司写风险定价模型时,以"爱好者"身份跑到深度学习研讨会上蹭课请教;他首创的平均场博弈强化学习算法,让百万级智能体系统的计算复杂度从不可能变为可能;他在ChatGPT发布两个月后,就带领团队成为国内最早复现RLHF的学者;他指导学生完成多智能体强化学习领域华人首篇Nature Machine Intelligence;他从纯算法的舒适区跳进硬件的"深坑",只因相信"双手才是人类智慧的终端"。他是杨耀东,北京大学人工智能研究院助理教授、灵初智能首席科学家,一个自称从"业余"起步的80后学者。


一、中科大→帝国理工→UCL:一个"蹭课"爱好者的逆袭

杨耀东的学术起点,是中国科学技术大学电子工程与信息科学系

2009年入学,2013年本科毕业后,他来到帝国理工学院攻读生物统计硕士。这段经历看似和强化学习无关,却给了他扎实的数学功底和跨学科视野。

硕士毕业后,他没有继续走学术道路,而是加入了美国国际集团(AIG)科学部,担任高级研发经理,开发机器学习风险定价模型。

如果故事到这里结束,杨耀东可能会成为一个优秀的金融科技工程师,拿着高薪,过着安稳的生活。

但他内心深处对深度学习有着极强的热情。2015年,AIG资助了一个在爱丁堡大学主办的深度学习研讨会,杨耀东以"爱好者"的身份跑去参加。

“他当时对深度学习极有热情,以爱好者的身份请教最新技术动态。”

在会上,他结识了张伟楠(后来成为上海交大教授),两人聊得很投机。张伟楠觉得这个年轻人虽然"业余",但功底扎实、热情 infectious,就把他推荐给了自己在**伦敦大学学院(UCL)**的导师——汪军教授

汪军是现代深度强化学习的发源地UCL的核心人物,培养了中国强化学习领域的"半壁江山"。他收下了这个"半路出家"的学生。

一个保险公司的工程师,因为对深度学习的热爱,蹭了一节课,改变了自己的人生轨迹。


二、UCL岁月:首创平均场博弈RL,导师说他"比我知道的paper还多"

进入UCL后,杨耀东的第一篇论文就展现了他独特的研究品味。

他没有选择当时热门的单智能体强化学习,而是探索如何用RL和多智能体系统模拟自然界捕食者与猎物的动态关系——比如狼群追捕兔群的周期性循环。与传统依赖微分方程的方法不同,他通过RL让智能体自主决策,仿真自然行为轨迹。

这项工作让他深刻体会到RL的魅力:从决策角度逼近真实人类社会

但真正让他一战成名的,是接下来的突破。

在完成第一篇论文后,杨耀东和导师汪军讨论新课题时发现:少量智能体的情况较为简单,但若数量增加到成百上千甚至上万后,系统将变得极其复杂——没有一个"C位"角色能主导全局。

面对这个问题,杨耀东提出了一个大胆的想法:引入"平均场博弈(Mean Field Game)"理论

以股票市场为例,每个投资者的行为复杂且相互影响,但通过平均场方法,可以将所有投资者视为一个整体,计算群体的统计行为,并假设个体行为受群体行为影响。

杨耀东成为第一个将平均场博弈引入机器学习的学者,首创平均场论RL算法(Mean Field MARL)。

通过将大规模智能体系统(百万级)简化为群体行为模型,他成功降低了计算复杂度,为处理超大规模多智能体系统提供了新的理论框架和实用工具。

这项创新中了顶会ICML 2018的Oral(Oral录用率通常不到5%),震惊了整个多智能体强化学习领域。

他的导师汪军曾这样评价他:

“杨耀东反应敏捷、掌握的知识非常丰富,很少有不知道的paper,有时比我知道的还多。”

一个"业余"出身的学生,用3年时间站在了多智能体强化学习的世界之巅。


三、从AIG到华为到KCL:产业与学术的双重淬炼

博士期间,杨耀东并没有把自己关在象牙塔里。

2019-2021年,他在华为英国有限公司·伦敦研究院担任主任研究员,继续从事RL研究。2020年,他获得了华为年度最佳技术突破奖(年度唯一)

这段经历给了他两个重要认知:

第一,工业界的问题比学术界的benchmark复杂100倍。在学术界,你在标准化环境里跑分;在工业界,你要面对真实世界的噪声、不确定性和极端corner case。

第二,强化学习不只是游戏AI。在华为,他看到了RL在通信优化、资源调度、芯片设计等领域的巨大潜力。

博士毕业后(2021年),他短暂地在伦敦国王学院(KCL)担任助理教授,随后于2022年1月回国,加入北京大学人工智能研究院

这个选择意味深长。当时国内AI圈正在经历大模型的狂热,很多人劝他继续做"纯算法"的方向。但杨耀东有自己的判断:

“只将RL应用于游戏并非智能的最终形态,无法推动行业发展。”

他做出了一个让同行惊讶的决定:跳出纯算法的舒适区,All in具身智能。


四、跳出舒适区:从"算法天才"到"硬件玩家"

2022年回国后,杨耀东牵头了北京市科委资助的**《基于认知推理的具身智能可泛化灵巧操作技术研究》**项目。

他与同年龄段的北大助理教授朱毅鑫、董豪、王鹤一起,探索类人灵巧双手操作。

这个转型有多难?

他之前所有的研究都在虚拟环境里——游戏、仿真、数学模型。现在,他要把算法部署到真实的机械手上,让AI控制高自由度的硬件在物理世界里完成精细操作。

莫拉维克悖论说:机器人处理复杂任务(如下棋)容易,执行简单日常动作(如叠衣服)却极其困难。杨耀东偏偏要挑战这个悖论。

半年后,团队实现了第一个双手抛接球demo

杨耀东立刻给远在伦敦的导师汪军发了一条微信,分享这份喜悦:

“让AI控制高自由度的机械手达到人的灵巧度,十分不容易。”

彼时,距离智元机器人和银河通用的正式成立还有一年多时间,用RL实现灵巧手操作尚未成为产业共识。

杨耀东又一次走到了时代的前面。

2022年,他带领华人团队获得了NeurIPS 2022具身灵巧操作竞赛冠军。同年,他指导学生完成了多智能体强化学习领域华人首篇Nature Machine Intelligence


五、ChatGPT的"RL信徒":国内最早复现RLHF的团队

2022年11月,ChatGPT横空出世。

当所有人都在惊叹大模型的语言能力时,杨耀东看到了更深层次的东西:

“他对ChatGPT的RLHF技术感到十分惊艳。”

RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)正是强化学习与大模型结合的关键技术。杨耀东做出了一个果断的决定:

只留下一个多智能体方向的博士生,其余所有人All in强化学习的对齐方向。

这使他成为国内最早做RLHF对齐研究的学者之一

ChatGPT发布仅两个月后,杨耀东团队就首先复现了RLHF模型后训练对齐的效果

随后,他与当时尚未成立百川智能的王小川一同探讨。两位"RL信徒"迅速达成共识:

RLHF是通向AGI的重要环节。

三年后,OpenAI O3、DeepSeek R1的诞生印证了他们的判断。

这段经历让杨耀东深刻意识到:

“AI浪潮发生在业界而非学界。”

一颗创业的种子,悄然埋下。


六、给学生的两句话:带不走代码,但能带走品味和道德

杨耀东不仅是一位顶尖科学家,也是一位深受学生爱戴的导师。

他常对博士生说这样一句话:

“五年后你们带不走任何算法代码,唯有两样东西真正属于你们——辨别研究方向的学术品味,以及决定学术生命长度的学术道德和规范。”

这句话出自他的导师汪军。汪军是他科研和为人处世上的领路人,而自己成为导师后,杨耀东希望把这份"知行合一"的学术基因传递下去。

在他的指导下,学生陈源培——一个00后对机器人痴迷的少年——成长为全球首位在真实环境中用强化学习同时控制双臂双手多技能操作的研究者,后来成为斯坦福李飞飞的访问学生,最终与杨耀东一起联合创立了灵初智能。


七、杨耀东给技术人的3条成长启示

1. "业余"不是劣势,热爱是最好的敲门砖

杨耀东从AIG保险公司"蹭课"起步,以"爱好者"身份进入UCL读博。他没有正统的CS博士背景,但凭借对深度学习的热爱,最终站在了强化学习的世界之巅。

不要被"专业对口"束缚。真正的热爱和自驱力,比一纸文凭更有说服力。

2. 敢于"清空"自己,才能抓住下一个范式

从多智能体博弈到具身智能硬件,从游戏AI到RLHF对齐,杨耀东每一次都在"鼎盛期"主动切换赛道。他说:“只将RL应用于游戏并非智能的最终形态。”

最大的风险不是失败,而是在一个即将过气的范式上耗尽青春。

3. 学术品味和道德,是你唯一能带走的东西

代码会过时,模型会被淘汰,公司会倒闭。但辨别研究方向的能力和坚守学术底线的品格,将伴随你一生。

短期的聪明让人发表论文,长期的品味让人定义方向。


八、写在最后:从"业余爱好者"到定义方向的人

杨耀东的故事,是一个典型的"非典型"成功路径。

他没有清华北大的本科光环,没有一毕业就进顶级实验室的"正统"履历。他在保险公司写过程序,以"爱好者"身份蹭过课,"半路出家"读了博士。

但正是这份"业余"出身,让他没有学术圈的思维包袱;正是产业界的淬炼,让他的研究始终扎根于真实问题;正是对强化学习近乎信仰的坚持,让他在每一次范式更迭中都站到了浪尖。

从首创平均场博弈RL算法,到带领华人团队首登Nature Machine Intelligence;从国内最早复现RLHF,到跳出舒适区投身具身智能——杨耀东用10年时间,完成了从"爱好者"到"定义方向者"的蜕变。

而他最珍贵的,也许不是那些论文和奖项,而是他传递给学生的那个信念:

代码带不走,带得走的,是你看待世界的方式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 18:23:49

ThinkDSP1(TODO)

https://github.com/AllenDowney/ThinkDSP GitHub - jmlv929/Python_ThinkDSP_study: Python_ThinkDSP_study Python数字信号处理应用 GitHub

作者头像 李华
网站建设 2026/6/15 18:23:48

pandas 性能优化:处理百万行数据的实战经验

pandas 性能优化:处理百万行数据的实战经验一、为什么 pandas 处理百万行数据时会卡住 pandas 是 Python 数据分析的标配工具,但一旦数据量达到百万行级别,内存溢出和执行缓慢就成了家常便饭。这背后的原因很直接:pandas 默认是单…

作者头像 李华
网站建设 2026/6/15 18:22:57

如何快速使用Win11Debloat:面向新手的完整Windows优化指南

如何快速使用Win11Debloat:面向新手的完整Windows优化指南 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter an…

作者头像 李华
网站建设 2026/6/15 18:20:02

MPC866缓存手动控制:嵌入式实时系统中的性能优化与数据一致性保障

1. MPC866缓存系统架构与核心设计思路在嵌入式系统开发,尤其是通信和工业控制这类对实时性和确定性要求极高的领域,处理器与内存之间的速度鸿沟是性能瓶颈的主要来源。MPC866 PowerQUICC处理器作为一款经典的嵌入式PowerPC架构芯片,其内置的指…

作者头像 李华
网站建设 2026/6/15 18:18:56

d2s-editor:暗黑破坏神2单机玩家的终极存档修改指南

d2s-editor:暗黑破坏神2单机玩家的终极存档修改指南 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 暗黑破坏神2单机玩家们,你是否厌倦了反复刷装备的枯燥过程?是否想要尝试不同的角色build却…

作者头像 李华
网站建设 2026/6/15 18:13:50

从零到一破解Uber实时行程API:逆向工程与高并发爬虫实战

前言:为什么Uber爬虫被称为“地狱难度”? 在数据采集领域,Uber的实时行程数据始终处于“传说级”难度。不同于普通电商网站简单的反爬机制,Uber应用了: 动态令牌系统 - 每30秒轮换的Bearer Token 证书固定(Certificate Pinning) - 阻止中间人攻击 请求签名算法 - 基于…

作者头像 李华