本文分享了作者从准备阶段到找到第一段华为大模型实习的经历,包括学习资源的选择、面试过程中的经验教训,以及实习期间在大模型领域的实践与成长。作者强调了理论知识与实际工作场景的差距,以及如何通过实习提升技能和积累经验。同时,还探讨了SFT和RL的区别,以及如何选择适合自己的工作。文章最后总结了作者在AI学习与求职过程中的心得体会,鼓励大家保持学习,抓住机遇。
长达半年的第一段实习(华子)要结束了,最近库库(苦苦)面试也是找到了鹅的暑期,稍微记录一下这段时间的经历和一些感想吧…
1、实习前的一些准备
由于学院所教大多与实际工作脱节(第一次学 transformer 是在大三的 nlp,诗人握持)。
为了稍微补一下比较前沿的知识,平时无聊就看看李沐的视频,虽然看完记得不多了,不过也算是了解了一下学术界在干嘛(受限于视频时间集中在 22 年,所以都是在这之前的工作)。
24 年暑假在学长的建议下,拉了个高中同学去用 numpy 复现 pytorch 的部分功能,有效锻炼了代码能力,并且弄清楚了神经网络的运行细节(但是没实现 transformer,实际上这一部分应该做完,收获会很大)
2、找第一段实习
由于绩点排名不高,保研无望,24 年 10 月份差不多开始找实习,由于需要动不动回学校,只能在南京范围内海投。小米的 LLM,字节,简历关都没过,倒是面试了几个小厂。
第一个是一个做网络比价的厂,面试时问了些实际运用场景的问题,大概就是怎么在海量数据下去识别两个商品是同款,并且比价之类的。
学校教的东西过度理论化完全没这方面的技术储备,于是就扯了一些压成向量比相似度这种万能废话,寄了。
第二个是个在软件大道的建筑相关的厂,线下面试过去先等人开会等了一个多小时,完事就让我填个表就发 offer 了,相当不对劲,遂跑路…
第三个是 boss 上找来的,明明 boss 的工作要求上就没有对口方向,我线上询问了一下 hr,hr 声称有相关岗位给我,骗我去线下面试。看地址在学则路附近比较近就去了。
结果到了之后,给我分了个卷子,全是前后端的题,唯一跟 ai 相关的题是“请给出‘AI’的全拼”。
完事看我前后端的题写不出来,hr 一遍喷我说“基础不是很扎实”一边忽悠我说“有很多你们南大的学长也在我们这实习工作过…”。难评,真难评,就当一个下午感受一下社会的险恶吧。
进华子纯机缘巧合。
刚好学期中学院和华为组织了一次南研所参观活动,相当于华为的一次宣传,加了两位南大毕业的学长学姐咨询了一下。后续有 hr 小姐姐指导我去官网投简历。
随后的面试一面也是学长面的,只对 pytorch 的熟悉程度提了一定的要求(写过 numpy torch 那个项目已经可以说很符合要求了)。
一面手撕代码是道 hot100 的 hard,没写出来,不过也给过了。二面主管面也比较顺利。
同院有两个同学也是在这同一批宣传下来华子实习,三四个同学看我能面进也都来投,全成功了。
我们这批人不仅来实习可以说是“点击即送”,而且全都没有机试,这不符合华子一般的实习招聘流程。
后来了解到是有针对 ai 相关的招聘计划,不限名额且流程没有机试。也算是撞到时代红利了。
01
第一段实习
24 年 12 月入职,实习的组是做特定领域的通用大模型的。受 o1 的影响,当时组里很多人在研究 o1 相关内容。
最开始的两周我就写完清洗数据的脚本后,就看组里的 ppt 和一些相关博客补充了一下 RLHF 的一些相关知识,看了:
[2305.20050] Let’s Verify Step by Step (arxiv.org)
https://arxiv.org/abs/2305.20050[2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (arxiv.org)
https://arxiv.org/abs/2408.03314也是在第二篇论文里面第一次看到“reward hacking”这种现象。
年前半个月去写了一个定制化的采样器,需要能在训练过程中动态的按照自定义策略来调整不同数据集的采样比例。
在 pytorch 上完成了代码并且在带教的指导下迭代了好几版。从 0 开始独立完成一个模块的开发并且反复迭代,这个过程也切实提高了我的代码能力,收获匪浅。
年后受到 deepseek r1 的影响,组里的工作重点放在相关工作上。由于主流的训练框架一般都对外屏蔽掉很多训练细节,之前完成的采样器实装是有一定难度的,带教的工作也转向 RL 相关,采样器的事暂且搁置了。
后面两三月基本上就是配环境,跑通代码的循环,简单改改训练框架配合带教做训练。
由于我拿不到资源,以及没有专门的调试环境,还有 npu 的环境适配问题,整个代码方面的产出其实不多。
除此之外,这段时间收获最大的工作并不是代码本身,而是与带教老师的聊天(bushi)。
由于需要接触训练框架,我需要去了解一些分布式训练框架,即模型是怎么训出来的。这期间任何疑问都可以直接骚扰带教,由于工位相邻,他躲都躲不掉。
带教之前也没做过 RL 的工作,对 GRPO 的了解其实是我们两个人一起边聊边学在摸 RL 的实际运行机制。
他有一流的训练和大模型工作经验,我有大学生还相对灵敏的脑子和较多的空余时间去看论文(带教还需要一直开会什么的)。
后续虽然我没资源做训练,但是其实带教每次实验结果都会跟我去讨论,并且探讨下一步实验方案,其实我还是学到不少有效的训练经验的。
最近一个月,参考最新的一些 GRPO 相关论文的进展,在实装一个定制化的采样器来做实验,还在实装中…
复盘
这段实习的收获是真不少,真比在学校学的多。
(1)一线工作场景下的经验
这是非常珍贵的。LLM 的工作目前其实已经逐渐“工业化”。高度依赖于稳定的训练集群。而学校的资源显著少于企业,并且不太会分到本科生手里。
实习期间虽然我申请不到资源,但是可以蹭蹭闲置的卡玩玩。而同时期如果在学校,我可能只能写写 RAG,调调 prompt,可能到现在都不知道还有推理优化这一个方向。
(2)大厂实习经历的背书
在面第二段实习的时候,大部分拷打时间都在对着这段实习经历问。
02
找第二段实习
(1)大致情况
minimax、字节各自发了一次简历,minimax 没回,字节几个月后会并且一面挂。
在藤子面了十次终于拿到 offer 了…
(2)拿到 offer
最后给 offer 的部门前后面了四次,就第一次有手撕代码环节。
能拿到 offer 其实完全是吃了第一段实习的红利。一面面试官恰好也在做相关内容,聊的非常融洽,手撕代码环节基本上是被扶着走过去的,面了足足一个半小时。
后续其实面试重点也都是在第一段实习内容的介绍上。
(3)一些印象比较深的面试问题和看法
- 有没有把一件事做到极致过
字节面试官的提问。我愣了一下,直接答没有。但是确实感觉有点随波逐流了,似乎并没有对自己的工作有比较执拗的追求。往往是觉得时间到了,我得做点什么了,去做。
随着别的事情增多又半途而废了。结果就是把大量时间用在应付一些琐事上,比如学校的部分垃圾作业。
而像之前 numpy 搓 torch 的项目没有继续写到 transformer,并且跟 pytorch 一起做完整训练对比一下;又比如之前的采样器,没有坚持做到实装和实验。
其实什么是“极致”这个事情很难定义,但是做一件事至少要追求“完整”。这其实本质上是时间精力的分配问题,要对一些东西有”舍“你才能在你觉得更重要的事情上做的更好,而不是“样样通,样样松”。
- SFT 和 RL 的区别
SFT 是纯记忆,数据的分布与模型的内在的数据分布不一致,会改变模型的语言风格,更容易导致模型的一些能力损失,即“SFT 更伤模型”。
RL 由于训练数据的回答来自模型自己,因此这方面伤害更低。因此如果我的业务需求就是希望模型按一定风格回答,而不损失他的能力,RL 是更好的选择。
训练难度上,SFT 需要完整的回答,RL 只要问题,所以其实数据获取成本相对低一些;但是 RL 最大的难点是有效的 verifier,再加上 RL 会更费资源,其实 RL 训练会比 SFT 难得多。
但是其实我感觉 RL 才是模型上限的引擎。数据才是训练的上限。对于中小玩家来说,高质量的数据完全可以通过蒸馏 Sota 模型得到。
但是对于 Sota 模型来说,他没法蒸馏到更好的数据,更高质量的数据可能就是需要对自己去做 RL 才有可能拔高。
- 期待的工作
首先一定是 wlb。对于我来说,工作就是牺牲部分时间的体验(其实有时候也可能干的很快乐),来(通过赚钱)提高剩下时间的单位时间体验。如果工作牺牲了休息时间甚至是身体,那其实没什么必要干了。
- 什么是杂活
背景是提到实习期间杂活干的不多,面试官就顺着问了。我感觉最好的活一定是我蹦一蹦能解决的工作。我通过查资料,学习,能解决的工作。这样过程我也有收获有成就感。
杂活其实就是那些我已经能熟练解决的那些偏机械重复的工作,这种类型的工作可以做,但是在工作生活中比例太高会很烦,工作会没啥积极性。
(4)复盘
其实能拿到鹅的 offer 我有点受宠若惊了。毕竟我只是个本科生,何德何能能拿到 LLM 的研发岗 offer。
回过头来看其实真的是天时地利人和:
- 我能进顺利进华子是因为恰好踩在 ai 风口上,有对应的实习计划,不然机试就够吃一壶了。
- o1/r1 横空出世带来的 RL 热潮,让我第一段实习的价值暴增
- 第一段实习的带教老师觉得做 SFT 天天换数据有点太无聊了,主动转 RL,才连带着我一起 RL
- 第一段实习中打杂时间其实不多,带教人也非常 nice,会认真回答我的问题,性格也非常合得来,学到了很多真东西
- 似乎有关部门发力了,鹅华子等公司的实习生招人数量增加
- 甚至我进人工智能专业都是顺手填的志愿,第一志愿其实是浙大,结果没过投档线捡漏了呢喃的 ai 院,结果正好在风口上
选择大于努力这句话的含金量还在上升!
保持开心,保持学习,说不定真什么时候蹭上风口了,一切随缘吧~
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。
对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。
👇👇扫码免费领取全部内容👇👇
1、大模型学习路线
2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。
3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)
4、AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5、面试试题/经验
【大厂 AI 岗位面经分享(107 道)】
【AI 大模型面试真题(102 道)】
【LLMs 面试真题(97 道)】
6、大模型项目实战&配套源码
适用人群
四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身:基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例:如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇
3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】