news 2026/4/4 0:56:35

【收藏必备】大模型入门指南:一文搞懂文本表示技术(从分词到词向量)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【收藏必备】大模型入门指南:一文搞懂文本表示技术(从分词到词向量)

本文详细介绍了文本表示技术,包括分词方法(词级、字符级、子词级)和词表示技术(one-hot编码、Word2Vec、上下文相关表示)。讲解了英文和中文的不同分词策略,以及如何使用Word2Vec训练词向量,展示了如何将预训练词向量应用于NLP模型的嵌入层初始化。这些技术是自然语言处理和大模型应用的基础。

1、概述

文本表示是将自然语言转化为计算机能够理解的数值形式,是绝大多数自然语言处理(NLP)任务的基础步骤。早期的文本表示方法(如词袋模型)通常将整段文本编码为一个向量。这类方法实现简单、计算高效,但存在明显的局限性——表达语序和上下文语义的能力较弱。因此,现代 NLP 技术逐渐引入更加精细和表达力更强的文本表示方法,以更有效地建模语言的结构和含义。文本表示的第一步通常是分词和词表构建,如下图所示:


1分词(Tokenization)是将原始文本切分为若干具有独立语义的最小单元(即token)的过程,是所有 NLP 任务的起点。2词表(Vocabulary)是由语料库构建出的、包含模型可识别 token 的集合。词表中每个token都分配有唯一的 ID,并支持 token 与 ID 之间的双向映射。在后续训练或预测过程中,模型会首先对输入文本进行分词,再通过词表将每个 token 映射为其对应的 ID。接着,这些 ID 会被输入嵌入层(Embedding Layer),转换为低维稠密的向量表示(即词向量),如下图所示。

此外,在文本生成任务中,模型的输出层会针对词表中的每个 token 生成一个概率分布,表示其作为下一个词的可能性。系统通常选取具有最大概率的ID,并通过词表查找对应的 token,从而逐步生成最终的输出文本。

2、分词

不同语言由于语言结构、词边界的差异,其分词策略和算法也不尽相同,本节将分别介绍英文与中文中常见的分词方式。

2.1英文分词

按照分词粒度的大小,可分为词级(Word-Level)分词、字符级(CharacterLevel)分词和子词级(Subword‑Level)分词。下面逐一介绍

2.1.1词级分词

词级分词是指将文本按词语进行切分,是最传统、最直观的分词方式。在英文中,空格和标点往往是天然的分隔符。

词级分词虽便于理解和实现,但在实际应用中容易出现 OOV(OutOfVocabulary,未登录词)问题。所谓 OOV,是指在模型使用阶段,输入文本中出现了不在预先构建词表中的词语,常见的包括网络热词、专有名词、复合词及拼写变体等。由于模型无法识别这些词,通常会将其统一替换为特殊标记(如 ),从而导致语义信息的丢失,影响模型的理解与预测能力。

2.1.2字符级分词

字符级分词(Character-level Tokenization)是以单个字符为最小单位进行分词的方法,文本中的每一个字母、数字、标点甚至空格,都会被视作一个独立的 token。

在这种分词方式下,词表仅由所有可能出现的字符组成,因此词表规模非常小,覆盖率极高,几乎不存在 OOV(Out-of-Vocabulary)问题。无论输入中出现什么样的新词或拼写变体,只要字符在词表中,都能被表示出来。然而,由于单个字符本身语义信息极弱,模型必须依赖更长的上下文来推断词义和结构,这显著增加了建模难度和训练成本。此外,输入序列也会变得更长,影响模型效率。

2.1.3子词级分词

子词级分词是一种介于词级分词与字符级分词之间的分词方法,它将词语切分为更小的单元——子词(subword),例如词根、前缀、后缀或常见词片段。与词级分词相比,子词分词可以显著缓解OOV问题;与字符级分词相比,它能更好地保留一定的语义结构。子词分词的基本思想是:即使一个完整的词没有出现在词表中,只要它可以被拆分为词表中存在的子词单元,就可以被模型识别和表示,从而避免整体被替换为。

常见的子词分词算法包括 BPE(Byte Pair Encoding)、WordPiece 和 Unigram Language Model。其中,BPE 是最早被广泛应用的方法,其需要先从语料中学习一个子词词表,基本原理是:首先将所有词语拆分为单个字符,然后迭代地统计语料中出现频率最高的字符对,将其合并为一个新的子词,并加入词表。该过程持续进行,直到达到设定的词表大小。然后再根据词表对新输入的文本进行分词,其基本原理是:从输入文本的第一个字符开始,优先选择词表中能够匹配的最长子词单元,然后继续处理剩余部分,直到完成整个序列的切分。 子词级分词已经成为现代英文 NLP 模型中的主流方法,如 BERT、GPT等模型均采用了基于子词的分词机制。

2.2中文分词

尽管中文的语言结构与英文存在显著差异,我们仍可以借助“分词粒度”的视角,对中文的分词方式进行归类和分析。

2.2.1字符级分词

字符级分词是中文处理中最简单的一种方式,即将文本按照单个汉字进行切分,文本中的每一个汉字都被视为一个独立的 token。

由于汉字本身通常具有独立语义,因此字符级分词在中文中具备天然的可行性。相比英文中的字符分词,中文的字符分词更加“语义友好”。

2.2.2词级分词

词级分词是将中文文本按照完整词语进行切分的传统方法,切分结果更贴近人类阅读习惯。

由于中文没有空格等天然词边界,词级分词通常依赖词典、规则或模型来识别词语边界。

2.2.3子词级分词

虽然中文没有英文中的子词结构(如前缀、后缀、词根等),但子词分词算法(如 BPE)仍可直接应用于中文。它们以汉字为基本单位,通过学习语料中高频的字组合(如“自然”、“语言”、“处理”),自动构建子词词表。这种方式无需人工词典,具有较强的适应能力。在当前主流的中文大模型(如通义千问、DeepSeek)中,子词分词已成为广泛采用的文本切分策略。

2.3分词工具

2.3.1概述

目前市面上可用于中文分词的工具种类繁多,按照实现方式大致可以分为如下两类:1一类是基于词典或模型的传统方法,主要以“词”为单位进行切分;2另一类是基于子词建模算法(如BPE)的方式,从数据中自动学习高频字组合,构建子词词表。前者的代表工具包括 jieba、HanLP等,这些工具广泛应用于传统 NLP 任务中。 后者的代表工具包括 Hugging Face Tokenizer、SentencePiece、tiktoken等,常用于大规模预训练语言模型中。

2.3.2jieba分词器

1)概述jieba 是中文分词领域中应用广泛的开源工具之一,具有接口简洁、模式灵活、词典可扩展等特点,在各类传统 NLP 任务中依然具备良好的实用价值。2)安装

pipinstalljieba

3)分词模式jieba分词器提供了多种分词模式,以适应不同的应用场景。(1)精确模式(默认)试图将句子最精确地切开,适合文本分析。分词效果如下:

小明毕业于北京大学计算机系 ⬇️ [小明|毕业|于|北京大学|计算机系]

精确模式分词可使用jieba.cut或者jieba.lcut方法,前者返回一个生成器对象,后者返回一个list。具体代码如下:

import jieba text="小明毕业于北京大学计算机系" words_generator=jieba.cut(text) # 返回一个生成器 for word in words_generator: print(word) words_list=jieba.lcut(text) # 返回一个列表 print(words_list)

(2)全模式把句子中所有的可以成词的词语都扫描出来,分词效果如下:

小明毕业于北京大学计算机系 ⬇️ [小|明|毕业|于|北京|北京大学|大学|计算|计算机|计算机系|算机|系]

全模式分词可使用jieba.cut或者jieba.lcut,并将cut_all参数设置为True,具体代码如下:

import jieba text="小明毕业于北京大学计算机系" words_generator=jieba.cut(text, cut_all=True) # 返回一个生成器 for word in words_generator: print(word) words_list=jieba.lcut(text, cut_all=True) # 返回一个列表 print(words_list)

(3)搜索引擎模式在精确模式基础上,对长词进一步切分,适合用于搜索引擎分词,分词效果如下:

小明毕业于北京大学计算机系 ⬇️ [小明|毕业|于|北京|大学|北京大学|计算|算机|计算机|计算机系]

可使用jieba.cut_for_search或者jieba.lcut_for_search,具体代码如下:

import jieba text="小明毕业于北京大学计算机系" words_generator=jieba.cut_for_search(text) # 返回一个生成器 for word in words_generator: print(word) words_list=jieba.lcut_for_search(text) # 返回一个列表 print(words_list)

(4)自定义词典jieba支持用户自定义词典,以便包含 jieba 词库里没有的词,用于增强特定领域词汇的识别能力。自定义词典的格式为:一个词占一行,每一行分三部分:词语、词频(可省略,词频决定某个词在分词时的优先级。词频越高被优先切分出来的概率越大)、词性标签(可省略,不影响分词结果),用空格隔开,顺序不可颠倒。例如

云计算 云原生5 大模型10n

可使用jieba.load_userdict(file_name)加载词典文件,也可以使用jieba.add_word(word, freq=None, tag=None)与jieba.del_word(word)动态修改词典。

import jieba jieba.load_userdict('dict.txt') words_list = jieba.lcut("随着云计算技术的普及,越来越多企业开始采用云原生架构来部署服务,并借助大模型能力提升智能化水平,实现业务流程的自动化与智能决策。") print(words_list)

3、词表示

3.1概述

在分词完成之后,文本被转换为一系列的 token(词、子词或字符)。然而,这些符号本身对计算机而言是不可计算的。因此,为了让模型能够理解和处理文本,必须将这些 token 转换为计算机可以识别和操作的数值形式,这一步就是所谓的词表示(word representation)。词表示的发展经历了从稀疏的one-hot编码,到稠密的语义化词向量,再到近年来的上下文相关的词表示。不同的词表示方法在表达能力、语义建模、上下文适应性等方面存在显著差异。

3.2One-hot编码

最早期的词向量表示方式是 One-hot 编码:它将词汇表中的每个词映射为一个稀疏向量,向量的长度等于整个词表的大小。该词在对应的位置为 1,其他位置为 0。

one-hot 虽然实现简单、直观易懂,但它无法体现词与词之间的语义关系,且随着词表规模的扩大,向量维度会迅速膨胀,导致计算效率低下。因此,在实际自然语言处理任务中,one-hot 表示已经很少被直接使用。

3.3语义化词向量

传统的one-hot表示虽然结构简单,但它无法反映词语之间的语义关系,也无法衡量词与词之间的相似度。为了解决这个问题,研究者提出了Word2Vec模型,它通过对大规模语料的学习,为每个词生成一个具有语义意义的稠密向量表示。这些向量能够在连续空间中表达词与词之间的关系,使得“意思相近”的词在空间中距离更近。

3.3.1Word2Vec概述

Word2Vec的设计理念源自“分布假设”——即一个词的含义由它周围的词决定。基于这一假设,Word2Vec构建了一个简洁的神经网络模型,通过学习词与上下文之间的关系,自动为每个词生成一个能够反映语义特征的向量表示。Word2Vec提供了两种典型的模型结构,用于实现对词向量的学习:1 CBOW(Continuous Bag-of-Words)模型输入是一个词的上下文(即前后若干个词),模型的目标是预测中间的目标词。

2 Skip-gram 模型输入是一个中心词,模型的目标是预测其上下文中的所有词(即前后若干个词)。

只要按照上述目标训练模型,就能得到语义化的词向量。

3.3.2Word2Vec原理

1)数据集Word2Vec 不依赖人工标注,而是直接利用大规模原始文本(如书籍、新闻、网页等)作为数据源,从中自动构造训练样本。由于两种模型的输入和输出都是词语,因此首先需要对原始文本进行分词,将连续文本转换为 token 序列。此外,模型无法直接处理文本符号,训练时仍需将词语转换为 one-hot 编码,以便作为模型的输入和输出进行计算。

2)Skip-Gram(1)训练数据集Skip-Gram的目标是根据中间词预测上下文,所以其训练样本为:

(2)模型结构Skip-Gram模型结构如下图所示:

Skip-Gram模型损失值的计算图如下图所示:

前向传播过程如下:1.输入中心词(地铁)“地铁”用 one-hot 向量表示2.查找词向量(Win)与参数矩阵Win相乘,取出“地铁”对应的词向量。(Win实际上就是词向量矩阵,每一行表示一个词的向量)3.预测上下文将中心词向量与参数矩阵 Wout相乘,得到对整个词表的预测得分。4.Softmax 输出得分通过 Softmax 转为概率分布,表示各词作为上下文的可能性。5.计算损失与真实上下文词“乘坐”、“上班”进行比对,计算交叉熵损失并求和,得到总损失。

之后在进行反向传播时,参数矩阵Win中的“地铁”对应的词向量就会被更新,模型通过这个过程不断的进行学习,最终便能得到具有语义的词向量。3)CBOW(1)训练样本CBOW的目标是根据上下文预测中间词,所以其训练样本为:(2)模型结构CBOW模型的结构如下图所示:CBOW模型损失值的计算图如下图所示:

CBOW 模型的前向传播过程如下:1.输入上下文词(乘坐、上班)每个词用 one-hot 向量表示。2.查找词向量(Win)每个 one-hot 向量与参数矩阵 Win 相乘,查出对应的词向量。(Win 实际上就是词向量矩阵,每一行表示一个词的向量)3.平均上下文向量将多个上下文词向量取平均,得到一个整体的上下文表示。4.预测中心词将平均后的上下文向量与参数矩阵Wout相乘,得到对整个词表的预测得分。5.Softmax 输出将得分输入Softmax,得到每个词作为中心词的概率分布。6.计算损失将预测结果与真实中心词“地铁”的one-hot向量进行比对,计算交叉熵损失。

之后在进行反向传播时,参数矩阵Win中“乘坐”和“上班”对应的词向量就会被更新。模型通过不断训练,逐步优化这些向量,最终便能得到具有语义的词向量。

3.3.3获取Word2Vec词向量

词向量的获取通常有两种方式:一种是直接使用他人公开发布的词向量,另一种是在特定语料上自行训练。在实际工作中,无论是加载已有模型还是从零训练,都可借助Gensim来完成,它提供了便捷的接口来加载 Word2Vec 格式的词向量,也支持基于自有语料训练属于自己的词向量模型。可执行以下命令安装Gensim

pip install gensim

1)使用公开词向量公开的中文词向量,可从https://github.com/Embedding/Chinese-Word-Vectors下载,其提供了基于多个数据集训练得到的词向量。词向量文件的格式为:第一行记录基本信息,包括两个整数,分别表示总词数和词向量维度。从第二行起,每一行表示一个词及其对应的词向量,格式为:词 + 向量的各个维度值。所有内容通过空格分隔,该格式已成为自然语言处理领域中广泛接受的约定俗成的通用格式。具体格式如下

<词汇总数> <向量维度> word1 val11 val12 ... val1N word2 val21 val22 ... val2N ...

可使用KeyedVectors.load_word2vec_format() 加载上述词向量文件,具体代码如下。

from gensim.models import KeyedVectors model_path = 'sgns.weibo.word.bz2' model = KeyedVectors.load_word2vec_format(model_path)

上述代码使用的sgns.weibo.word.bz2词向量文件包含195202个词,每个词向量300维。该文件可从该网址下载,也可直接从课程资料获取。词向量加载完后,便可使用如下API查询词向量1、查看词向量维度

print(model.vector_size)

2、查看某个词的向量

print(model['地铁'])

3、查看两个向量的相似度

similarity = model.similarity('地铁', '公交') print('地铁 vs 公交 相似度:', similarity)

model.similarity计算的是两个词向量的余弦相似度,计算公式如下返回值介于[-1,1]。接近1表示高度相似,语义接近接近;接近0表示无明显相关;接近-1方向完全相反,极度不相似。找出与某个词最相似的词

similar_words = model.most_similar(positive=["上班"], topn=5) print(similar_words) result = model.most_similar(positive=["爸爸", "女性"], negative=["男性"], topn=3) print(result)

2)自行训练词向量(1)准备语料Word2Vec的训练语料需要是已分词的文本序列,格式为:

sentences = [['我', '每天','乘坐', '地铁', '上班'], ['我','每天', '乘坐', '公交', '上班']]

(2)训练模型gensim提供了十分方便的训练词向量的API——Word2Vec。

from gensim.models import Word2Vec model = Word2Vec( sentences, # 已分词的句子序列 vector_size=100, # 词向量维度 window=5, # 上下文窗口大小 min_count=2, # 最小词频(低于将被忽略) sg=1, # 1:Skip-Gram,0:CBOW workers=4 # 并行训练线程数 )

(3)保存词向量

model.wv.save_word2vec_format('my_vectors.kv')

(4)加载词向量

from gensim.models import KeyedVectors my_model = KeyedVectors.load_word2vec_format('my_vectors.kv')

完整案例如下:数据集来源为ChineseNLPCorpus,格式CSV,具体结构如下

catlabelreview书籍1感谢于歌先生为大家带来这么精彩的一本好书!书籍0这本书纸质不怎样,内容也不怎样。水果1苹果酸甜可口,大小适中,好吃。水果0不是很大,比较甜,不会回购,感觉加运费后不划算。完成代码如下:

import jieba from gensim.models import Word2Vec, KeyedVectors import pandas as pd df = pd.read_csv('online_shopping_10_cats.csv', encoding='utf-8', usecols=['review']) sentences = [[token for token in jieba.lcut(review) if token.strip() != ''] for review in df["review"]] model = Word2Vec( sentences, # 已分词的句子序列 vector_size=100, # 词向量维度 window=5, # 上下文窗口大小 min_count=2, # 最小词频(低于将被忽略) sg=1, # 1 = Skip-Gram,0 = CBOW workers=4 # 并行训练线程数 ) model.wv.save_word2vec_format('my_vectors.kv') my_model = KeyedVectors.load_word2vec_format('my_vectors.kv') print(my_model)
3.3.4应用Word2Vec词向量

训练好的词向量,通常用于初始化下游NLP任务的嵌入层。在现代深度学习的 NLP 模型中,大多数任务的输入第一层都是嵌入层。本质上,嵌入层就是一个查找表(lookup table):输入是词在词汇表中的索引;输出是该词对应的向量表示。嵌入层的参数矩阵可以有两种典型的初始化方式:随机初始化模型训练开始时,嵌入向量是随机生成的,模型会通过反向传播逐步学习每个词的表示。使用预训练词向量初始化加载训练好的词向量(如 Word2Vec)到嵌入层中作为初始参数,这样可以为模型注入丰富的语言知识,尤其在低资源任务中优势明显。并且,加载预训练词向量后,可选择是否让嵌入层继续参与训练。下面以PyTorch为例,演示如何使用预训练词向量初始化Embedding层核心API为nn.Embedding.from_pretrained

embedding_layer = nn.Embedding.from_pretrained( embedding_matrix, # 词向量矩阵,形状为(num_embeddigns,embedding_dim) freeze=False # 是否冻结词向量 )

以下是完整案例

import torch import torch.nn as nn from gensim.models import KeyedVectors # 1. 加载预训练的 Word2Vec 模型 word_vectors = KeyedVectors.load_word2vec_format("my_vectors.kv") # 2. 构建词表和词向量矩阵 word2index = word_vectors.key_to_index # 词到索引的映射 embedding_dim = word_vectors.vector_size # 词语向量维度 num_embeddings = len(word2index) # 词表大小 embedding_matrix = torch.zeros(num_embeddings, embedding_dim) # 构造词向量矩阵,形状为(词表大小,词向量维度大小) for word, idx in word2index.items(): embedding_matrix[idx] = torch.tensor(word_vectors[word]) # 3. 构建 PyTorch 的嵌入层 embedding_layer = nn.Embedding.from_pretrained( embedding_matrix, # 词向量矩阵,形状为(num_embeddigns,embedding_dim) freeze=False # 是否冻结词向量 ) # 4. 示例:将词索引转换为向量 input_words = ["我", "喜欢", "乘坐", "地铁"] # 分词后的句子 input_indices = [word2index[word] for word in input_words] # token转为索引 input_tensor = torch.tensor([input_indices]) # 构造嵌入层输入张量 # 5. 查询嵌入(即词向量查找) output = embedding_layer(input_tensor) # 通过嵌入层查找预训练词向量 print(output.shape) # 例如 torch.Size([1, 4, 100])

3.4上下文相关词表示(暂时了解)

虽然像Word2Vec这样的模型已经能够为词语提供具有语义的向量表示,但是它只为每个词分配一个固定的向量表示,不论它在句中出现的语境如何。这种表示被称为静态词向量(static embeddings)。然而,语言的表达极其灵活,一个词在不同上下文中可能有完全不同的含义。例如:

这时,使用同一个静态词向量去表示“苹果”,显然无法区分这两种语义。这就推动了上下文相关的词表示的发展。上下文相关词表示(Contextual Word Representations),是指词语的向量表示会根据它所在的句子上下文动态变化,从而更好地捕捉其语义。一个具有代表性的模型是——ELMo。该模型全称为 Embeddings from Language Models,发表于2018年2月。其基于LSTM 语言模型,使用上下文动态生成每个词的表示,每个词的向量由其前文和后文共同决定,是第一个被广泛应用于下游任务的上下文词向量模型。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

适用人群

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/1 15:01:10

<span class=“js_title_inner“>“AI+” 实效落地指南|天云数据四大场景攻坚方案,为能源/消防/交通/康养精准赋能</span>

近期&#xff0c;国务院新闻办举行发布会&#xff0c;指出人工智能是新一轮科技革命和产业变革的重要驱动力量&#xff0c;是引领未来的战略性和基础性技术。接下来&#xff0c;将推进“AI”专项行动聚焦能源、制造等重点行业&#xff0c;推动超千个高价值场景落地生根。各产各…

作者头像 李华
网站建设 2026/4/3 1:00:08

从参数竞赛到物理世界理解:2026 年 AI 技术的三大进化方向

引言 当我们还在为大模型参数突破万亿级惊叹时,AI 行业的竞争焦点已经悄然转向。2026 年开年,一场新的技术风暴正在酝酿:谷歌 DeepMind 和北京智源的前沿模型登上《自然》期刊,ASC26 竞赛把 "秒级物理世界推理" 设为核心赛题,雄安新区发布专为工业场景打造的 &…

作者头像 李华
网站建设 2026/3/29 2:36:54

<span class=“js_title_inner“>内存还能涨多久?</span>

关注、星标公众号&#xff0c;精彩内容每日送达来源&#xff1a;网络素材有同学可能已经猜到&#xff1a;推动这轮涨价的推手不是手机厂商&#xff0c;而是AI数据中心。更准确地说&#xff0c;是为AI服务器生产的高带宽内存&#xff08;HBM&#xff09;占了太多内存生产资源。1…

作者头像 李华
网站建设 2026/3/26 13:38:15

可直推 | 零一汽车招聘(端到端/大模型/规控/部署/SLAM等)

点击下方卡片&#xff0c;关注“自动驾驶之心”公众号 戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取→自动驾驶之心知识星球 零一汽车是一家专注于新能源智能重卡研发的科技企业。我们通过垂直集成的总成技术和智能系统&#xff0c;以深厚行业积累结…

作者头像 李华
网站建设 2026/4/2 6:17:32

企业的固定资产管理面临哪些痛点?一般用哪款软件来进行管理?

在企业规模化运营与数字化转型的进程中&#xff0c;固定资产作为企业资产的核心组成部分&#xff0c;贯穿采购、入库、领用、盘点、折旧、报废全生命周期。但多数企业缺乏专业的固定资产管理软件&#xff0c;仍停留在手工记账、表格统计的传统模式&#xff0c;管理混乱、账实不…

作者头像 李华