news 2026/7/6 4:00:50

:NLP任务的首次大一统

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
:NLP任务的首次大一统

把分类、摘要、问答、翻译等一切 NLP 任务都塞进一个框架里:输入是文本,输出也是文本。

从地位和后续影响来说,T5 可以说是现代自然语言指令对话的起点,是对 NLP 任务形式的首次大一统,因此,本篇同样先展开 T5 本身的架构,再说明其 RPE 逻辑。

1. 如何训练统一模型?#

如何统一训练统一模型?其实这部分内容就是整篇论文的核心思路,T5 将模型训练分为两部分:

  1. 使用 span corruption 的无监督预训练。
  2. 使用 task prefix 的监督多任务训练。

下面就来分点展开:

1.1 跨度破坏 Span Corruption#

T5 本身的整体架构仍然是原始 Transformer 的编码-解码架构。
而这部分是模型的第一阶段训练,它使用 C4 数据集(一个包含数百亿个 token 的语料库)进行无监督预训练。

这里的关键词就是题目里的Span Corruption,概括来说是这样的:

从输入序列中随机选取一些连续的 token 片段,替换为哨兵 token,以预测这些哨兵 token 为目标,训练整个模型的基础语言理解能力。

这部分其实和我们之前讲的 Word2Vec 的逻辑是类似的,只是前者训练的是词向量表,而现在我们训练的是整个模型的所有相关参数。
其实还有另外一个相关的概念是 BERT,它的想法是遮住单个 token 后判别恢复,而 T5 改为了遮住连续 token 生成恢复,等涉及到相关内容我们再展开。

拿一个英文句子举例:

"Thank you for inviting me to your party last week"

假设我们抹掉两个 span:

  1. "for inviting" →<X>
  2. "last week" →<Y>

现在,模型的输入和标签其实是这样的:

输入:[替换 span 后的原句子] "Thank you <X> me to your party <Y>" 目标输出:[<哨兵 token 序号>对应预测内容···<结束符>] "<X> for inviting <Y> last week <Z>"

你会发现多了一个<Z>,实际上这是在训练阶段我们手动添加的,作为生成任务的结束符加入学习内容。这和我们之前的 语言模型中提到的<EOS>是一个道理。

按这种方式,使用海量数据进行训练后,模型便拥有了基础的语言理解能力。
但要注意,我们要的不是一个“填空模型”,这种做其实就是为了给模型的参数进行一个具备语言理解能力的初始化,所以才被称为“预训练”。

而下面这步,才是实现“统一”的逻辑。

1.2 任务前缀 task prefix#

这部分其实是最好理解的部分,但也是实现 NLP 任务统一的最大前提:

给所有使用的数据加一个任务前缀,让 Transformer 架构按前缀生成对应类型的输出序列。

就像这样:

任务传统做法T5 的做法
翻译Encoder-Decoder 架构,标准 Seq2Seq输入translate English to German: ...,输出译文
摘要专门的 Seq2Seq 模型输入summarize: ...,输出摘要
分类BERT + 分类头输入cola sentence: ...,输出acceptable/unacceptable
相似度双塔 + 回归头输入stsb sentence1: ... sentence2: ...,输出3.8
问答专门的抽取式/生成式模型输入question: ... context: ...,输出答案

你会发现,这种设计就是把任务类型放到了输入序列中,通过大量数据让模型学习到相应的生成模式,实现把所有任务塞进 Seq2Seq 框架的逻辑。

这样,我们不再需要为每个任务单独写一个"输出头 → 损失函数"的代码了,整个训练流程只有一个入口,一个出口,使用统一的 Seq2Seq CrossEntropy 损失函数。

但显然,你也会发现相应的局限:

使用这样的数据格式训练,就一定要使用这样的格式推理,甚至真实应用。

所以,虽然可以通过预处理脚本完善相应的下游逻辑,但这种格式仍然有些僵硬,因此也指引了后续的改进方向。
从今天的视角看,Task Prefix 本质上已经是 Prompt Engineering 的早期雏形:任务本身被编码成自然语言输入,让模型通过上下文理解“现在应该做什么”。

2. Pre-LN 与去掉 LayerNorm 的偏置#

看完了 T5 的核心框架和预训练,除去我们单独搁置的 RPE 逻辑外,T5 还有一处较小的改进度点,我们也简单展开一下:

2.1 Post-Norm 到 Pre-Norm 的回归#

我们在 Transformer Block 那篇里中已经展开过 Post-Norm 和 Pre-Norm 了,T5 同样采用了 Pre-Norm,即 LayerNorm 放在残差之前:

�+��������(���������(�))

这个选择并非 T5 首创,但它结合了另一个改动:

2.2 去掉 LayerNorm 的偏置 β#

我们知道标准的 LayerNorm 公式是:

�=�⊙�−��+�

其中 γ 是可学习的缩放参数,β 是可学习的偏置参数。
现在,T5 把 β 砍掉了,只剩下 �:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/6 3:58:52

告别鼠标手:3步掌握AutoClicker自动化点击工具

告别鼠标手&#xff1a;3步掌握AutoClicker自动化点击工具 【免费下载链接】AutoClicker AutoClicker is a useful simple tool for automating mouse clicks. 项目地址: https://gitcode.com/gh_mirrors/au/AutoClicker 你是否曾在深夜加班时&#xff0c;手指因为重复点…

作者头像 李华
网站建设 2026/7/6 3:58:10

【mp4文件的图标在文件夹中显示视频第一帧】

需求&#xff1a;视频文件显示第一帧而不是视频图标。 方案&#xff1a;使用软件 media previw&#xff0c;用于恢复Windows资源管理器中不支持或损坏的媒体文件类型的缩略图预览。它允许用户预览视频文件的图片预览&#xff0c;否则这些文件通常只显示默认图标

作者头像 李华
网站建设 2026/7/6 3:58:06

ASP.NET MVC实践系列9-filter原理与实践

我们先来看看ASP.NET MVC 框架提供的几种默认filter类型: 1、Authorize&#xff1a; 准备工作&#xff1a;进入C:\WINDOWS\Microsoft.NET\Framework\v2.0.50727文件夹&#xff0c;双击aspnet_regsql.exe选择好相应的数据库&#xff0c;创建membership&#xff0c;AuthorizeAtt…

作者头像 李华
网站建设 2026/7/6 3:57:12

PowerShell 路径规则详解:从基础到高级

1. 引言在 Windows 系统管理和自动化脚本编写中&#xff0c;PowerShell 是功能强大的工具。无论是访问文件、加载模块&#xff0c;还是执行脚本&#xff0c;都离不开对路径的正确理解和处理。PowerShell 的路径规则与传统的 CMD 有所不同&#xff0c;它更灵活&#xff0c;但也更…

作者头像 李华
网站建设 2026/7/6 3:56:47

126、DyHead 动态检测头替换 YOLOv11 Head:Scale+Space+Task 三维注意力的实现

126、DyHead 动态检测头替换 YOLOv11 Head:Scale+Space+Task 三维注意力的实现 从一次诡异的mAP抖动说起 去年年底调YOLOv11的C2f模块,发现一个奇怪现象:换了几种注意力机制,mAP@0.5:0.95始终在0.523附近震荡,死活上不去。后来扒开特征图一看,深层小目标特征被背景噪声…

作者头像 李华
网站建设 2026/7/6 3:55:44

Google chrome OS vmdk文件在WMware下运行的办法

大家将从官方下好的280M的压缩包解压&#xff08;有一个720M的文件 本人解压后只有712M&#xff09; 2、使用WMware新建一个虚拟文件&#xff0c;就像装Windows前一样&#xff0c;你得先在WMware下新建一个安装环境&#xff08;不明白的可以直接使用CtrlN新建&#xff09; 3、…

作者头像 李华