news 2026/4/15 20:11:54

【LLM基础教程】语言模型基础

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【LLM基础教程】语言模型基础

1. 什么是语言模型

​ 语言模型起源于语音识别(speech recognition)领域,输入一段音频数据,语音识别系统通常会生成多个句子作为候选,究竟哪个句子更合理?就需要用到语言模型对候选句子进行排序。如今语言模型的应用范围早已扩展到机器翻译、信息检索、问答系统等众多NLP领域。

​ 那么,什么是语言模型呢?一句话,语言模型是这样一个模型:对于任意的词序列,它能够计算出这个序列是一句话的概率即语言模型就是“判断一句话是否合理/自然”的概率模型。

(1) 为什么语言模型很重要?

​ 自然语言具有模糊性与歧义性,仅靠规则或声学信息往往难以判断最合理的句子。

​ 在语音识别中,“to recognize speech”和“to wreck a nice beach”发音听起来非常相似,如果仅靠声学模型,可能难以判断哪一个正确。

​ 但语言模型通过统计规律可以判断前者出现的概率更高,从而帮助系统做出正确选择。

  • 举例说明:

    • 词序列 A:CSDN|的|文章|真|水|啊,这明显是一句话,一个训练良好的语言模型会给出较高的概率。
    • 词序列 B:CSDN|的|睡觉|苹果|好快,这明显不是一句合理的话,好的语言模型会给出极低的概率。

    语言模型的目的,就是让机器“知道什么样的句子像人说的话”。

2. 语言模型的数学定义

​ 如果我们有一个由TTT个词元构成的序列:
x1,x2,⋯ ,xT x_1, x_2, \cdots, x_Tx1,x2,,xT
​ 语言模型的目标就是估计全序列的联合分布:
P(x1,x2,⋯ ,xT) P(x_1, x_2, \cdots, x_T)P(x1,x2,,xT)
​ 在概率链式法则(Chain Rule)下,我们可以将其分解为:
P(x1,x2,⋯ ,xT)=∏t=1TP(xt∣x1:t−1) P(x_1, x_2, \cdots, x_T) = \prod_{t=1}^TP(x_t|x_{1:t-1})P(x1,x2,,xT)=t=1TP(xtx1:t1)
​ 也就是说,语言模型通过建模“下一个词的分布”,实现对整个句子概率的估计。

​ 同时,它也可以用于文本生成:
xt∼P(xt∣xt−1,⋯ ,x1) x_t \sim P(x_t|x_{t-1}, \cdots, x_1)xtP(xtxt1,,x1)

  • 因此,一个优秀的语言模型必须同时具备:

    • 语法能力(生成结构正确的句子)
    • 语义能力(生成含义合理的文本)
    • 上下文理解能力(能够基于前文做判断)

    现代大型语言模型(LLM,如 GPT 系列、LLaMA 系列)已经在这些方面远超传统统计语言模型。

3. 语言模型的应用

​ 语言模型的核心能力是:**为任意词序列计算概率,并基于条件概率预测下一个词。**因此,几乎所有需要“理解或生成语言”的任务都可以借助语言模型实现。

(1) 文本生成

Text Generation

​ 语言模型最直接的应用,就是按照条件概率P(xt∣x1:t−1)P(x_t|x_{1:t-1})P(xtx1:t1)逐词生成自然语言文本,包括:

  • 对话生成(ChatGPT、Siri、Copilot 等)
  • 自动写作(改写、续写、写文案、故事生成)
  • 社交媒体文本生成
  • 自动邮件回复
(2) 机器翻译(MT)

Machine Translation

  • 翻译模型需要判断:

    • 源语言句子含义
    • 目标语言中哪种表达最自然
  • 语言模型在翻译中主要负责:

    • 目标语言句子的流畅性判断
    • 选择最合理的翻译候选
    • 对多候选翻译进行打分(Language Model Rescoring)
(3) 语音识别(ASR)与语音转文本(STT)

​ 语音识别系统通常会输出一系列可能的文本候选(token 序列),语言模型用于:

  • 对这些候选句子进行排序(LM rescoring)

  • 消除谐音歧义

  • 纠正常识性错误

    例如:

  • “to wreck a nice beach”

  • “to recognize speech”

    声学模型可能认为两者相似,但语言模型可以轻松判断哪一句更合理。

(4) 文本纠错

Spell Check / Grammar Correction

​ 语言模型通过判断一句话的自然程度,能够:

  • 检测拼写错误
  • 识别语法异常
  • 自动给出最合理的替换方案
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 22:47:06

Mybatis基础使用教程

什么是MyBatis?• MyBatis是⼀款优秀的 持久层 框架,⽤于简化JDBC的开发。• MyBatis本是 Apache的⼀个开源项⽬iBatis,2010年这个项⽬由apache迁移到了google code,并 且改名为MyBatis 。2013年11⽉迁移到Github.• 官⽹:MyBati…

作者头像 李华
网站建设 2026/4/13 11:21:16

弹论:为投资者打造稳定投资之路

在金融投资的世界里,投资者都渴望拥有一条稳定的投资之路,能够在市场的风浪中稳健前行。而弹论以其判断趋势、分区操作和避免频繁换手的优势,为投资者打造了这样一条稳定投资之路。弹论优势的全面阐述弹论是一种基于均线理论的创新交易方法&a…

作者头像 李华
网站建设 2026/4/11 7:32:37

小程序管理后台项目

GET https://cloud1-7g5siu5u6bae09ea.636c-cloud1-7g5siu5u6bae09ea-1333007326.cos.ap-shanghai.myqcloud.com/assets/images/1765853236705_318_%E5%90%8E%E7%AB%AF.png net::ERR_CERT_COMMON_NAME_INVALID各位大佬,使用云服务开发,使用云数据库&…

作者头像 李华
网站建设 2026/4/14 23:20:56

0.5B参数超越大模型:KaLM-Embedding-V2.5重塑轻量级标准

PyTorch-CUDA 基础镜像 v2.5:让开发者专注模型,让环境自己跑起来 你有没有经历过这样的场景?凌晨两点,实验马上要跑通,结果 pip install torch 卡在编译 cuDNN 的环节;或者刚在服务器上配置好环境&#xf…

作者头像 李华
网站建设 2026/4/15 18:55:52

Dify变量注入实现上下文安全传递

Dify变量注入实现上下文安全传递 你有没有遇到过这种情况:销售同事刚上传了一份客户合同,想确认交付周期,结果AI助手却引用了HR部门的薪酬调整通知?或者更糟——某个临时外包人员无意中查到了本不该看到的财务预算表。 这听起来像…

作者头像 李华
网站建设 2026/4/15 18:52:44

零代码基础也能上手!LobeChat一键部署教程(含GPU加速)

零代码基础也能上手!LobeChat一键部署教程(含GPU加速) 在AI助手逐渐成为日常工具的今天,你是否也想过拥有一个完全属于自己的、能离线运行、响应飞快、还不会泄露隐私的智能聊天机器人?不需要买云服务API额度&#xf…

作者头像 李华