【2026】 LLM 大模型系统学习指南 (4)-洪萨配资

吃透生成式 AI 基础 —— 从概念到实操的巩固练习

学习生成式 AI 的核心，在于把抽象的原理落地为具体的理解和操作。这份基础作业正是为了帮大家夯实核心知识点，从概念辨析到实操计算，全方位检验对 GenAI fundamentals 的掌握程度。不管是刚入门的新手，还是想查漏补缺的学习者，跟着这份思路完成作业，都能让基础更扎实。

一、作业核心目标：明确要掌握什么

这份作业的核心不是 “难倒大家”，而是围绕 3 个核心目标设计，确保每道题都有明确的巩固意义：

辨析核心概念：分清生成式 AI 与其他 AI 类型（如判别式 AI）的区别，理解 Token、自回归、Transformer 等基础术语的实际含义；
落地基础操作：掌握 Tokenization（文本拆分）、概率计算等实操步骤，能手动或借助工具完成简单的生成式 AI 基础流程；
建立逻辑关联：理解 “原理→操作→结果” 的因果关系，比如 “温度参数如何影响生成结果”“Token 拆分方式如何影响模型理解”。

二、题型拆解：每类题的解题思路与要点

作业题型围绕基础知识点设计，没有复杂的公式推导，重点在于 “理解 + 应用”，以下是具体题型的拆解和解题建议：

1. 概念辨析题：分清 “是什么” 和 “不是什么”

这类题主要考察对核心术语的准确理解，避免混淆相似概念，常见形式为选择题、判断题或简答题。

典型例题：
1. 以下属于生成式 AI 的是（）？A. 图像分类（判断图片是猫还是狗） B. 文本续写（输入 “春天来了” 生成完整段落） C. 垃圾邮件识别 D. 人脸识别
2. 简述 “自回归生成” 与 “非自回归生成” 的核心区别，并用生活中的例子类比。
解题要点：
- 抓核心特征：生成式 AI 的关键是 “创造新内容”（文本、图像等），而判别式 AI 是 “做判断、分类”；
- 用通俗类比辅助记忆：自回归生成像 “逐字写作文”，非自回归生成像 “同时写出所有字”（效率高但连贯性差）；
- 避免死记硬背：结合之前学的 “AI 写句子” 案例，理解每个概念的实际应用场景。

2. Tokenization 实操题：亲手拆分文本

这类题让你动手完成文本到 Token 的拆分，理解 “积木组装” 的基础流程，常见形式为手动拆分或工具验证。

典型例题：
1. 用字节对编码（BPE）的思路，手动拆分句子 “生成式 AI 很有趣”，假设已有的高频组合为 “生成式”“AI”“有趣”，写出拆分后的 Token 序列；
2. 用工具拆分同一句子，对比手动拆分结果，分析差异原因。
解题要点：
- 牢记 BPE 核心逻辑：优先合并 “最常一起出现的字符 / 词”，拆分时以已有的高频组合为基础；
- 手动拆分步骤：先拆成单个字符（生 / 成 / 式 / AI / 很 / 有 / 趣），再合并已知高频组合（生成式 / AI / 很 / 有趣），最终 Token 序列为 ["生成式", "AI", "很", "有趣"]；
- 工具验证：可借助开源 Tokenization 工具（如 Hugging Face Tokenizers），对比结果时关注 “是否有新的高频组合被识别”。

3. 概率与生成逻辑题：理解 AI “选词” 的原理

这类题考察对自回归生成中 “概率计算” 的理解，不用复杂计算，重点在于逻辑梳理。

典型例题：
1. 已知输入 “今天天气” 后，模型给出的 Token 概率分布为：“晴朗”（0.6）、“下雨”（0.2）、“凉爽”（0.15）、“美味”（0.05），请回答：
  - 温度参数设为 0.1 时，模型最可能选择哪个 Token？为什么？
  - 温度参数设为 1.8 时，是否有可能选择 “美味”？为什么？
2. 简述 “概率分布” 与 “生成内容连贯性” 的关系。
解题要点：
- 温度参数的核心影响：低温度（≤0.3）选高概率 Token，高温度（≥1.5）允许低概率 Token 被选中；
- 逻辑关联：概率分布是 AI “选词” 的依据，合理的概率分布（高概率 Token 与上下文相关）才能保证生成内容连贯；
- 避免误区：不要认为 “低概率 Token 一定是错误的”，只是与上下文的相关性更低。

4. 案例分析题：用基础原理解释实际现象

这类题让你用学到的知识分析真实场景，建立 “原理→现象” 的关联，常见形式为简答题。

典型例题：
1. 某 AI 生成的句子为 “水在标准大气压下的沸点是 50℃”，请结合 “语言知识” 与 “世界知识” 的区别，分析该错误的原因；
2. 为什么 Transformer 架构的 “多头注意力” 能提升生成内容的逻辑性？请用 “句子理解” 的场景解释。
解题要点：
- 错误分析逻辑：语言知识（语法正确，“沸点是 XX℃” 的表达无误）→ 世界知识（事实错误，标准大气压下沸点为 100℃）；
- 多头注意力的作用：从多个维度（语法、语义、上下文关联）分析 Token 关系，避免 “断章取义”，提升逻辑性；
- 结合案例：用 “银行” 的多义理解（存钱的银行 vs 河边的岸），辅助解释多头注意力的优势。

5. 实操拓展题：用工具验证基础原理

这类题鼓励大家借助工具（如之前提到的 JudgeBoi、开源 Tokenization 工具）完成，培养 “实操验证” 的习惯。

典型例题：
1. 用两种不同的 Tokenization 工具拆分同一篇短文，对比拆分后的 Token 数量和序列，分析差异原因；
2. 用 JudgeBoi 评估 “低温度” 和 “高温度” 下模型生成的两段文本，从 “连贯性”“准确性” 维度对比得分，验证温度参数的影响。
解题要点：
- 工具使用的核心目的：验证理论知识，比如用 JudgeBoi 的评估结果，印证 “低温度生成内容更连贯” 的结论；
- 差异分析：不同工具的 Token 库、拆分算法不同，导致拆分结果有差异，属于正常现象；
- 记录习惯：实操时记录关键步骤和结果，方便后续复盘。

三、完成作业的 3 个关键步骤

1. 先回顾，再动手

完成作业前，花 10 分钟回顾核心知识点：Token 的定义、自回归生成的步骤、温度参数的影响、Transformer 的核心结构。不用死记硬背，重点梳理 “知识点之间的关联”，比如 “Token 拆分→嵌入层→多头注意力” 的流程。

2. 先手动，再工具

基础题型（如概念辨析、手动 Token 拆分）先独立完成，再用工具验证结果。比如手动拆分 Token 后，用 Hugging Face Tokenizers 对比，分析自己的拆分是否合理；概率题先推导逻辑，再用简单的代码片段（如 Python 计算概率分布）验证。

3. 先完成，再复盘

不要追求 “一次做对”，先按自己的理解完成所有题目，再对照知识点自查：

概念题是否混淆了 “生成式” 与 “判别式”？
Token 拆分是否遵循了 BPE 的核心逻辑？
案例分析是否同时考虑了语言知识和世界知识？
实操题是否通过工具验证了理论？

复盘时可以标注 “模糊的知识点”，针对性回看相关内容，比如如果不懂 “多头注意力”，可以再梳理 Transformer 的核心结构。

四、注意事项：避开 3 个常见误区

不要死记硬背答案：作业的目的是巩固理解，比如 Tokenization 的拆分结果不是唯一的，关键是理解 “为什么这么拆”，而不是记住固定答案；
不要忽视实操环节：手动拆分、工具验证等步骤能帮你深化理解，比如亲手拆分后，才会明白 “高频组合” 对 Tokenization 的影响；
不要脱离知识点关联：每道题都不是孤立的，比如案例分析题需要结合 “语言知识 vs 世界知识”“Transformer 架构” 等多个知识点，避免 “只看单一知识点”。