预训练
模型微调
想象力科技公司在办一些活动时,发现模型对高度专业化的场景,表现的不够专业,相比金牌客服还是有不小差距,专业话术没能准确使用。于是,研究决定要对模型和进行LoRA低秩微调。
想象力科技公司收集了过去一年中最优秀的5000份人工客服对话记录,构建了"金牌话术数据集"。
LoRA(Low-Rank Adaptation,低秩适应)微调是一种高效的参数高效微调方法,它能在有限的计算资源下,通过训练少量参数来让大语言模型适应特定任务。
微调的方式有很多,如Full-tuning(全量微调)、Freeze-tuning(冻结微调)、Adapter(适配器)、LoRA、QLoRA(量化LoRA)等。
经过LoRA微调,模型在对话场景下,表现出了不错的专业性,在话术的使用上很接近金牌客服的水平,已经像客服一样接住客户的情绪。
仍然面临的挑战
虽然有了知识库、网络搜索、工具执行等辅助应用形态,以及模型微调,但是还是会遇到专业术语理解不到位的导致模型推理时,偏离预期。技术团队发现这是一个无法根除的顽疾:基因层面的认知缺失。
想象力科技的团队用经过Lora微调的模型,去生成一份关于公司核心技术的竞标方案,结果模型在最关键的公司内部文化和技术的理解错误,把技术方案写得牛头不对马嘴,所以无法直接在现场向客户演示公司AI应用解决方案,通过PPT、视频的方式进行讲演,这显然无法获得客户足够的信任,导致竞标结果不理想,没能拿下千万级的项目。
后来,公司决定找一个基础模型,经过监督微调(SFT)的客服模型,虽然回答准确率很高,但学会了“钻空子”。比如处理复杂的客服退货申请,标准流程是验证订单、检查货物状态、分析退货理由、生成退货方案,但模型发现,只要跳过中间两步直接批准退货,虽然偶尔会出错,但能更快关闭工单,在短期数据上拿到好评。因为奖励函数的不完善性,导致模型重结果,轻流程。我们不光要教模型正确答案,更要教会它可靠的思考过程和价值观。
所以,想象力科技公司想要利用AI真正参与公司内部的技术研讨、技术研发方案定制时,表现欠佳,从术语理解到公司内的文化、技术风格、价值取向等等的理解都差一些火候。对于公司认知是从基因里欠缺的,市面上的通用模型并没有,所以想象力科技公司决定自研一个AI模型,来弥补这个不足。
公司此前,从AI的应用者开始,成为AI的集成者,走到目前的定制者,接下来,公司战略决定,要掌握真正的核心技术,成为AI的构建者,这符合公司的追求科技进步的文化价值观相符,也对未来公司的商业模式开辟一条新路出来。
于是,CTO 拍板决定:“我们不能只在别人的地基上装修(微调),我们需要有自己的地基。”于是,想象力科技决定开启预训练(Pre-training),将公司十年来积累的代码库、技术白皮书、内部论坛的激辩帖子,炼制成模型脑海中的“常识”。他们要造的不再是一个客服,而是一个流淌着“想象力科技”血液的数字员工。
自研AI模型的团队从AI聊天聊天原理浅析开始了解模型原理,到数据准备、模型训练、模型推理、模型评估、模型上线等,一步步构建了一个AI模型,这个模型就是“想象力科技AI模型”。
2.1 AI聊天聊天原理浅析
在本文第一部分,我们有详细介绍AI聊天应用的过程分析,LLM收到用户Query后的处理,本质就是从输入的 tokens 推测下一个 token 的出现概率,将可能性较高的作为输出token,再将得到的token添加到输入中,直到满足结束条件(上下文长度限制、结束符以较高概率出现、用户定义的停止条件、概率阈值与采样策略、模型架构的隐式结束符)。
所以LLM本质上是一个具有统计概率的知识记忆模糊的知识回顾系统,也可简称概率性复读机。那么这个回顾系统是怎么实现的呢,想象力科技想要的“zip文件”怎么构建出来的?
2.1 预训练
在预训练过程中,是无监督学习的过程。一个训练批次流程是,使用无标注的原始数据(通常是现实世界的知识,如互联网上采集的网页),将文本输入,通过分词Token化后,模型会预测出下一个token,接着计算损失函数,再反向传播优化模型权重,再将此token作为输入,直到触发结束条件。
训练通常也是经过数百万次甚至更多个训练批次,在经历不断调整权重后,模型内化了我们给它训练的知识,可以拟合我们提供的知识,也就是“概率统计的高级复读机”,通过深层Transformer结构,模型学习长距离依赖和抽象语义,进而通过层次化表示实现了对知识的重组,做到非机械复现的“智能涌现”。
2.1.1 构建数据集
图片来源:https://huggingface.co/space…
通常的数据集生成流程:
- 列举主流网站的URL
- 有害网站URL过滤,垃圾站点、成人内容等
- 从URL网站响应的富文本提取文字内容
- 文本语言过滤,如仅针保留英文或者中文内容,在huggingface上数据集语言分布前5如下图:
huggingface数据集语言分布
- 文本语言过滤,如仅针保留英文或者中文内容,在huggingface上数据集语言分布前5如下图:
- Gopher 过滤,去除无意义、低信息量或有害内容(如垃圾文本、暴力、偏见等)
- MinHash 去重,用于快速检测并移除数据集中的重复或近似重复的文本片段(如文档、段落或句子)。其核心目的是减少数据冗余,避免模型因重复数据过拟合或偏向高频内容,同时节省计算资源。
- C4 过滤,C4(Colossal Clean Crawled Corpus) 数据集进行清洗和筛选的步骤,旨在从原始网页文本中提取高质量、多样化的语料,同时去除噪声、重复和低效内容。
- Custom Filters(自定义过滤器)目标是针对通用过滤方法(如MinHash去重、C4/Gopher过滤)无法覆盖的领域特殊性问题,进行更精细化的数据质量控制。
- PII Removal(个人身份信息移除) 是指从原始数据中识别并删除或匿名化 个人身份信息(Personally Identifiable Information, PII) 的关键步骤,旨在保护用户隐私、遵守数据保护法规(如GDPR、CCPA),并降低模型泄露敏感信息的风险。
预训练数据集示例:
预训练数据集示例
想象力科技公司在了解了此基础原理后,以同样的方式方法,整理了公司内部的知识库,经过爬取、过滤、去重、PII Removal等,构建了“知识库数据集”,知识库数据集包含公司内部的知识,如公司内部的技术术语、公司内部的技术文化、公司内部的技术风格、公司内部的技术价值观、客服记录、订单记录、客户行为等大量数据。
但是,采用通用的数据清洗规则来处理公司内部的知识,会存在一些问题,如公司内部的知识,可能包含一些专业术语、特有的技术属于缩写,如“COS”,在通用数据清洗规则中,会将“COS”当做噪音或者替换为“cos”,导致模型无法理解“COS”是公司内部的知识,而是一个普通的单词。于是,于是团队编写了专门的脚本,保留了这些“黑话”,这对应的就是Pre-training中的去噪与特征保留。
2.1.2 Tokenization(分词)
机器只懂数字0和1,机器如何理解文字?分词就是这个用途。
想象力科技公司看了业界的一些开源项目,发现tiktokenizer是业界比较流行的开源项目,于是,想象力科技团队基于tiktokenizer,构建了公司内部的分词器,将公司内部的知识,拆分为模型可处理的离散单元(Token)。如通用的分词器把公司的核心产品名“Nebula-AI”拆成了“Ne”、“bula”、“-”、“AI”四个不相关的词,导致模型很难理解这是一个整体。团队通过修改 Tokenization 表,将公司专有词汇打包成独立的Token,让机器一眼就能认出自家产品。
tiktokenizer 上可以看到模型token可能是不一样的,这里举例OpenAI的对话示例:
可以看到OpenAI对数据结构化了,定义了对话角色,增加了im_start、im_sep、im_end这样的标识符用于分割对话,这些标识符都对饮一个token,“You are a helpful assistant”的tokens序列是“3575, 553, 261, 10297, 29186”。
Tokenization(分词/令牌化)是将输入文本拆分为模型可处理的离散单元(Token)的过程,即将文本数据表示为token的一维序列。它是自然语言处理(NLP)中的关键步骤,直接影响模型对文本的理解能力和效率。
数据集的原始文本数据量非常大,如著名的FineWeb数据集就有15万亿个token,总共44TB大小,需要高效拆分文本窗口,在能表达混合多种语言、复杂字符表达等情况,但不丢失语义。分词实际上就是一层映射包装,过粗、过细的分词都不利于训练和模型性能表现,分词过细(如字符级、字节级别、比特级别)导致长序列,计算开销大,分词过粗(如单词级)则词汇表爆炸,内存占用高。
采用BPE(Byte-Pair Encoding,如GPT)、WordPiece(如BERT)或SentencePiece,将文本转化为子词(subword)单元。BPE算法(Byte-Pair Encoding):平衡词汇表大小与序列长度。
原始文本:
原始文本
原始字节:
原始字节
tokenization(词元化):
tokenization
对话过程中输入的token越多,越分散注意力,降低模型准确性和性能,节约成本。不丢失信息的情况,越短越好,性能成本都会提升。所以,聊不同的主题应该单独开会话窗口。
看吧,计算机就是通过这样的方式逐渐理解人类语言的,并不是什么“魔法”,想象力科技公司的团队在理解原理后也能做出来。
2.1.3 词汇表
在tokenization过程中,想象力科技发现,如在FineWeb数据集44TB的文本内容里,很多词一起出现的概率较高,如果直接拿这么大的token去训练,效率低下,公司的GPU资源根本不够。如图中49305后面出现17,那么就可以将49305与17合并成4930517,作为一个新的token,重复如此。最后,再将所有词汇压缩到最小映射表,重新编号token,这样就得到了一份可以还原44TB内容的词汇表。如GPT-4词汇表是100277个。
主流大语言模型的词汇表大小如下(按数值从小到大排序):
- 原版LLaMA
词汇表大小为 32,000 (32K),但中文token较少(仅几百个)。
- 原版LLaMA
- 中文LLaMA/Alpaca
通过合并中文tokenizer后,词汇表扩展至 49,953 (约50K)。
- 中文LLaMA/Alpaca
- 优化后的实验模型
- • 部分研究将词汇表从32K扩展至 43,000 (43K),显著提升下游任务性能。
- • 理论预测的Llama2-70B最优词表大小为 216,000 (216K),但尚未实际部署。
- 多语言模型(如XLM-R、Bloom)
词汇表普遍较大,约 250,000 (250K)。
- 多语言模型(如XLM-R、Bloom)
2.1.4 词嵌入
接下来需要把token以机器能理解的方式表示出来,这就是词嵌入(word embedding)。
把那些离散的东西(比如单个单词、一张图片,甚至一整篇文档),对应到一个连续的向量空间里,变成一个个 “点”。这么做的主要目的,就是把文字、图像这种非数值 的数据,转成神经网络能读懂、能处理的格式。
词嵌入
另外,词嵌入中 “维度” 可以从 1 维到几千维不等。一般来说,维度越高,越能捕捉到数据里那些细微的关系—— 比如单词之间更复杂的关联。就好比我们用N个字来解释一个词(一维的长序列),解释篇幅越长,这个词的含义就会越能被清晰表达,在整本字典中的位置、与其他词之间的关系就能准确定位,但代价是我们要的文字,字典会变得非常厚,我们的大脑也需要理解内化更多知识,超出人脑极限;据说汉字有两万多个,但我们日常常用的仅需四千多个就足够日常生活了,我们无法准确记忆字典每个词的释义,但我们认识的字对应的含义内化在我们的大脑的神经网络当中了。理解回LLM,维度越高我们的计算代价就更高,计算起来会更慢,效率会下降,所以还需要做出权衡。
2.1.5 架构设计和准备
在准备好训练数据后,想象力科技模型团队接下来就要做好模型架构选择。
模型架构选择
当前主流LLM通常是采用Transformer结构,且主流的都采用Decoder-only(仅解码器架构) 架构,也就是不包含解码器部分;Decoder-only架构包含自主力(Self-Attention)和多头注意力(Multi-Head Attention)的注意力层、前馈神经网络(FFN),注意力层+FFN等模块组成一层,需要确定模型的层数和参数量。
模型架构选择
主流架构Transformer(基于自注意力机制),常见变体:
- •Decoder-only(GPT系列):适合生成任务,单向注意力掩码,主流的GPT系列、LLAMA系列、DeepSeek系列、Claude(Anthropic)、Gemini 文本部分(Google)、Qwen系列都是Decoder-only架构。
- •Encoder-decoder(T5、BART):适合翻译等序列到序列任务。
规模参数:
- • 层数(L):12-100+(如GPT-3 davinci版本包含96层)
- • 隐藏层维度(d_model):768-12,288
- • 注意力头数(h):12-128
Decoder-only架构示意图:
Decoder-only架构示意图
核心组件:
- • 自注意力机制:计算输入序列中每个位置的关联权重(如多头注意力)。
- • 前馈网络(FFN):每个注意力层后接非线性变换。
- • 层数与参数量:例如,GPT-3有1750亿参数,包含96层Transformer块。
数据分片
训练过程想象力科技公司发现,训练数据量太大,GPU集群要充分利用起来,所以需要考虑如何将数据分片,将数据分片后,每个节点仅处理部分数据,然后通过分布式训练,将多个节点的训练结果汇总,得到最终模型。
将大规模训练数据集划分为多个逻辑或物理片段(Shard)的技术,目的是实现高效的数据并行处理和分布式训练。
数据分片的核心作用:
- 解决内存与存储限制:单个节点无法加载全部数据,分片后每个节点仅处理部分数据。
- 并行加速训练:不同分片由不同计算设备并行处理(如GPU),缩短训练时间。
- 容错性:单个分片损坏或失败时,只需重新处理该分片,而非整个数据集。
数据分片
我们知道数据集是一张表,所以数据分片的方式方法和传统结构化数据分片类似,但这里要结合训练过程的实际情况做调整,数据分片常见方法:
- 静态分片,预先规划好分片,每个GPU固定处理指定分片,优点实现简单,缺点是实际训练过程中可能导致GPU负载不平衡,因为数据集中的每一行长度是不同的,所以会导致数据倾斜。
- 动态分片,训练过程中动态分配数据(如通过中央调度器或分布式文件系统),优点:自动平衡负载,适应数据异构性。缺点:实现复杂,需额外协调开销(如Apache Spark或Ray框架)。
- 分片与数据管道的结合,流水线加载:当一个GPU处理当前分片时,异步预加载下一个分片(隐藏I/O延迟);格式优化:分片常存储为高效二进制格式(如TFRecord、HDF5),加速读取。
2.1.6 训练任务设计、执行和优化
预训练任务设计
自监督学习:无需人工标注,通过文本自身生成监督信号。
- • 因果语言建模(CLM):预测下一个Token,目标函数:
- • 掩码语言建模(MLM):随机遮盖部分Token并预测(如BERT),遮盖比例通常15%。
- • 混合目标:如UniLM结合双向和单向预测。
预训练任务设计
训练执行
分布式训练,并行策略执行、通信优化,每一轮训练(单步训练)流程包括:
- 数据加载与预处理,可以是分布式加载(如DataLoader多进程)和动态批次(如动态填充)。
- 前向传播(含激活重计算):激活重计算(Gradient Checkpointing)是显存优化关键技术,用时间换空间。
- 反向传播 + 梯度同步:数据并行下需跨设备同步梯度(如all-reduce通信)。
- 参数更新(含梯度裁剪):梯度裁剪防止爆炸,优化器(如AdamW)更新参数。
训练执行
Transformer结构的训练通常需要经过上百万甚至数十亿批次的训练,训练时会充分利用GPU并行的特性,在分布式训练中并行,包括数据并行、模型并行、张量并行、流水线并行,且满足总GPU数 = 数据并行度 × 模型并行度,其中模型并行度= × 张量并行度 × 流水线并行度。
- •数据并行(Data Parallelism):将批次(Batch)划分为多个子批次(Sub-batch),分配到不同GPU上并行处理。
- •模型并行(Model Parallelism):将模型拆分为多个部分分配到不同GPU,分为层内并行(张量并行)和层间并行(流水线并行)。
- •张量并行(Tensor Parallelism):将单个矩阵运算拆分到多GPU(如Megatron-LM)。
- •流水线并行(Pipeline Parallelism):将模型层拆分到多GPU(如GPipe)。
总GPU数=DP×TP×PP。
举例GPT-3的预训练情况,加深直观理解:
GPT-3预训练并行实现:
基础参数:
- • 1750亿参数,3000亿Token训练数据
- • 上下文长度=2048 Tokens(受限于O(n2)注意力计算复杂度)
- • 理论训练步数≈94,000步(全局批次大小=3.2M Tokens/步 → 1562条序列/步)
数据切分:
- • 语料被切割为连续2048 Token的序列(无重叠,保留文档内连续性)
- • 全局批次大小(3.2M Tokens)需拆分为:
单卡处理量=全局批次大小 / 数据并行度(DP)
3D混合并行策略:
- •张量并行(TP):单层内拆分矩阵运算(如Attention层)
- •流水线并行(PP):模型按层分组(如每组8层)
- •数据并行(DP):复制完整模型分组处理数据
- • 总GPU数 = DP × TP × PP(如4096卡:DP=32, TP=8, PP=16)
关键技术支撑:
- • 激活重计算(降低70%显存)
- • 混合精度训练(FP16 + Loss Scaling)
- • 动态批次分桶(减少Padding浪费)
模型训练核心参数关系
这里批量大小和上下文大小的关系是:序列数=批次大小/上下文长度=3.2M*106/2048≈1562 个序列/步,批次大小是并行训练的序列数量,而上下文长度是单个序列的长度。这里对tokenization后的数据集进行切分为一个个小块(chunk),这个chunk的大小就是上下文窗口长度(context window),chunk的大小是序列长度,批次大小是同时处理的chunk数量,训练批次总token数是两者的乘积。
预训练的单步(Step)结果
- • 模型基于输入序列(如2048 Tokens)计算下一个Token的概率分布。
- • 通过损失函数(如交叉熵)评估预测质量,反向传播更新参数。
- • 经过数百万至数亿步的迭代,最终得到一个具备通用语言能力的基础模型(Base Model)。
基础模型的本质
• 通过统计学习从海量数据中提炼语言规律,非训练数据的机械回放。
• 具备零样本(Zero-shot)推理能力,可处理未见任务。
预训练过程示例
上图得到的next token ID 是19348(" Direction"),但是我们期望的是3962(" Post")概率更高一些。所以,在完成一轮训练后,我们会用测试数据集进行测试,计算Lost函数,并将拟合偏离反馈到神经网络的参数调整上,这样下一轮训练后,token ID 3962(" Post")的概率就会更高一些。
整个训练的过程,我们逐步调整参数权重,这种权重的参数有上亿个,如DeepSeek R1满血版参数量是671B(6710亿)个,GPT-3 的参数量是 1750 亿,GPT4的参数量1.8 万亿左右,这是很大的参数量。所以,我们可以理解为神经网络实际上是一个非常巨大的数学表达式,我们预训练后得到的就是这样一个或者一群这样的函数表达式。
这样一个超巨大的数学表达式展开式什么样的呢?这里有一个大模型可视化网址https://bbycroft.net/llm ,可以看到一个85584个参数的神经网络,这里详细讲解了通过预训练后得到的排序神经网络,在处理一个排序任务的时候整个过程,推荐大家去做拓展阅读。这里面还有GPT-2、GPT-3的神经网络可视化,可以直观感受到不同规格参数的神经网络。
神经网络可视化
循环训练以上单步训练外,还需要引入优化,保证训练结果和提升训练效率。
训练优化
包括软件技术优化和硬件技术优化。
软件技术优化
- •混合精度训练:
• FP16/FP8存储:参数和梯度用低精度保存,减少显存占用,DeepSeek 的优化之一就是FP8化,并且开源了他们FP8的项目DeepGEMM,提升效果是很明显的。
DeepGEMM效果
• Loss Scaling:对损失值放大以防止梯度下溢。
- •激活检查点(Activation Checkpointing):
- • 仅保存关键层的激活值,其余在反向传播时重新计算,显存减少30%-50%。
- •内核融合(Kernel Fusion):
- • 将多个CUDA操作合并为单一内核(如将LayerNorm + Dropout融合)。
硬件技术优化:
- 显存管理
- • 显存池(Memory Pool):预分配显存块,避免碎片化。
- • 页锁定内存(Pinned Memory):加速主机到设备的数据传输。
- 计算加速
- • FlashAttention:优化注意力计算显存占用,支持更长的上下文(如32K)。
- • 稀疏计算(Sparsity):对MoE(Mixture of Experts)模型的专家路由动态分配计算资源。
2.1.7 预训练产物
经过数周的GPU燃烧,Base Model 终于诞生了。虽然它现在还不会聊天(问它“你好”,它可能会补全成“你好吗?我很好”),但它已经是一个懂行的哑巴天才。你给它一段公司代码的前半部分,它能完美补全出符合公司代码规范的后半部分。
这个基础模型(Base Model),可以看做是一个互联网词汇模拟器,它能够模仿数据集的知识,蹦出概率较高的下一个token,这些token组成的知识是模糊的、具有统计性质的。
就像是将数据集的只是内化存储到了神经网络之上,知识可以被拟合回放。但是它还不能成为一个有用的助手,它的回答可能是不可读,甚至有害的,这时候给他问题他也许只会给出更多问题或者做简单背诵。还需要进到后训练才能做出正确响应,成为一个有个性的助手。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。