news 2026/6/23 10:28:28

完整学习LLM(二):大模型到底是什么

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
完整学习LLM(二):大模型到底是什么

这个问题看起来简单.

但真要说清楚,其实不容易.

因为它很容易被讲得特别玄.

比如有人会说它在思考.

也有人会说它只是概率接龙.

这两个说法都有一点道理,但如果只记这两句话,还是很难落到项目里.

所以这篇我想换一个角度:

先不急着讲论文.
先拿普通程序和大模型对比一下.

看看它到底和我们平时写的代码有什么不一样.

0.背景:我一开始把它想简单了

刚开始用 ChatGPT 的时候,我其实很自然地把它当成一个更聪明的搜索框.

我问:

Docker 怎么部署 Go 后端?
RAG 是什么?
这个错误怎么解决?

它回答得很顺.

所以很容易产生一种错觉:

大模型 = 一个知识很多的问答系统

但后面写 RAG 的时候,我发现这个理解不够.

因为如果大模型真的是一个知识库,那它应该能精确查资料.

但它不能.

如果大模型真的是一个数据库,那我问:

筛选出所有攻击力大于 50 的装备

它应该像 SQL 一样稳定.

但它也不适合直接干这个.

所以我开始意识到:

大模型不是数据库.
大模型也不是搜索引擎.
它更像一个基于上下文生成文本的模型.

这句话听起来有点抽象.

我们慢慢拆.

1.普通程序是怎么工作的

先看我们熟悉的普通程序.

比如写一个简单的规则:

def check_attack(power: int) -> str:
if power > 50:
return "高攻击装备"
return "普通装备"

这个程序的特点很明确:

规则是人写死的.
输入一样,输出基本一样.
程序不会自己发挥.

它不理解什么叫"强".

它只知道:

power > 50

满足条件就返回高攻击装备.

不满足就返回普通装备.

这种程序很可靠.

只要规则写对,它就会按规则执行.

但它的问题也很明显:

规则没写到的地方,它就不会.

比如你问它:

这件装备适合刺客还是战士?

如果代码里没有写职业判断逻辑,它就回答不了.

普通程序更像这样:

输入
-> 人写好的规则
-> 按步骤执行
-> 输出

2.大模型不是按 if else 在回答

大模型不一样.

你问它:

这件装备攻击力 60,暴击率 20%,适合什么角色?

它不是在代码里找一个固定的 if else.

它更像是在看这段文本:

攻击力 60
暴击率 20%
适合什么角色

然后根据训练中学到的语言规律,项目知识,上下文线索,去生成一个最可能接得上的回答.

流程大概是:

用户输入
-> 切成 token
-> 进入模型计算
-> 预测下一个 token
-> 再预测下一个 token
-> 拼成完整回答

注意这里最关键的是:

它不是一次性吐出整篇答案.
它是一点点生成的.

比如回答:

这件装备更适合刺客.

对模型来说,它不是一下子把这句话拿出来.

而是类似这样:

这件
这件装备
这件装备更
这件装备更适合
这件装备更适合刺客

当然真实过程不是按中文词这样切,而是按 token.

但先这样理解就够了.

3.那"大"到底大在哪里

LLM 里面的 L 是 Large.

这个"大",不是说它脾气大.

而是几个东西都很大:

参数量大
训练数据大
计算量大
上下文处理能力越来越大

参数可以先粗暴理解成:

模型内部学到的调节旋钮.

普通程序里,规则是人写的.

大模型里,很多能力不是人一条条写进去的,而是通过大量文本训练出来的.

训练时,模型不断做一件事:

给它前面的文本,
让它预测后面应该出现什么.

预测错了,就调整参数.

调整很多很多次以后,它就慢慢学会了一些东西:

语法
常识
代码格式
问答方式
文章结构
不同概念之间的关系

所以它看起来像会回答问题.

但底层更接近:

根据上下文,生成最合理的后续文本.

4.为什么它能回答很多没见过的问题

这个地方很容易误解.

有人会觉得:

模型回答出来了,说明它训练时见过原文.

不一定.

大模型不是简单背书.

它确实可能记住一部分训练内容,但更重要的是,它学到了大量语言模式和知识关系.

比如它学过很多类似内容:

Docker 用来打包应用
Nginx 可以做反向代理
PostgreSQL 是关系型数据库
Go 可以写后端服务

当你问:

Go 后端怎么用 Docker 部署?

它就能把这些模式组合起来,生成一个看起来合理的方案.

这也是它强的地方.

它不是只能回答固定问题.

它可以组合.

但这也是它危险的地方.

因为它组合出来的东西,不一定就是你项目里的真实情况.

比如它可能会编一个端口:

服务运行在 8080 端口.

但你的项目实际可能是:

服务运行在 8888 端口.

这时候它不是故意骗你.

它只是根据常见模式生成了一个看起来合理的答案.

这就是为什么后面需要 RAG.

因为项目事实不能只靠模型自己猜.

5.一句话理解大模型

如果先不追求严谨,我现在会这样理解 LLM:

LLM 是一个经过大量文本训练后,
能够根据上下文不断预测下一个 token,
最终生成自然语言、代码、结构化内容的模型.

这句话里面有几个关键词.

第一个:

大量文本训练

说明它的能力来自训练数据和训练过程.

第二个:

上下文

说明你给它什么信息,会直接影响它怎么回答.

第三个:

预测下一个 token

说明它的生成过程不是查表,而是一步步续写.

第四个:

生成

说明它擅长的是组织答案,解释内容,改写文本,写代码,总结材料.

但它不是天然适合做所有事.

6.它适合什么,不适合什么

大模型适合做什么?

我现在会先列这些:

解释概念
总结文档
改写表达
生成代码草稿
根据上下文组织答案
把零散信息整理成结构

这些任务都有一个共同点:

不是只要一个精确值.
而是需要理解、组织、表达.

那它不适合什么?

比如:

精确筛选数据库记录
严格计算金额
判断权限是否允许
直接当唯一事实来源
在没有资料时回答项目内部细节

这些事情不是不能和大模型结合.

而是不能只靠大模型.

比如:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 10:10:28

Proxelar 0.4.5 官方版下载(Windows x64,夸克网盘)

Proxelar 0.4.5 官方版下载(Windows x64,夸克网盘) 百度网盘新软件发布已暂停;本文只提供已匿名验证通过的夸克网盘链接,同时保留官方原始链接和校验信息,方便自行核对来源。 软件简介 Proxelar 是一个开源…

作者头像 李华
网站建设 2026/6/23 10:03:41

监控告警落地的本质:从指标采集到告警响应的工程化闭环

1. 这不是“配个仪表盘”就能交差的事:监控告警落地的本质是工程化闭环 “Putting Monitoring and Alerting into Practice”——这个标题乍看平平无奇,像极了技术文档里一句轻描淡写的章节名。但在我过去十年带团队做SRE、搭建过27套生产级可观测性体系…

作者头像 李华
网站建设 2026/6/23 9:51:46

基于模拟学习者的自适应阅读评估:从千人一面到个性化导航

1. 项目缘起:当“千人一面”的阅读评估遇到瓶颈作为一名在教育技术领域摸爬滚打了十多年的老兵,我见过太多“看上去很美”的阅读评估系统。它们往往基于一套固定的标准,比如词汇量、阅读速度、答题正确率,然后给每个学生打上一个冷…

作者头像 李华
网站建设 2026/6/23 9:49:28

基于图神经网络的多组学癌症转移预测模型PATH构建与应用

1. 项目缘起:当癌症转移遇上多组学与图神经网络在肿瘤研究领域,预测癌症是否会转移,以及会转移到哪个器官,一直是个“老大难”问题。传统的临床病理指标,比如肿瘤大小、分级、淋巴结状态,虽然有用&#xff…

作者头像 李华
网站建设 2026/6/23 9:47:47

沙箱环境加密流量分析实战:MITM与内存Hook技术解析

1. 项目概述:为什么要在沙箱里“听”加密流量? 做安全分析的朋友,尤其是搞恶意软件逆向、威胁狩猎或者应用安全测试的,肯定对“沙箱”不陌生。简单说,沙箱就是一个隔离的、可控的虚拟环境,你把一个可疑文件…

作者头像 李华