：NLP任务的首次大一统-洪萨配资

把分类、摘要、问答、翻译等一切 NLP 任务都塞进一个框架里：输入是文本，输出也是文本。

从地位和后续影响来说，T5 可以说是现代自然语言指令对话的起点，是对 NLP 任务形式的首次大一统，因此，本篇同样先展开 T5 本身的架构，再说明其 RPE 逻辑。

1. 如何训练统一模型？#

如何统一训练统一模型？其实这部分内容就是整篇论文的核心思路，T5 将模型训练分为两部分：

下面就来分点展开：

T5 本身的整体架构仍然是原始 Transformer 的编码-解码架构。
而这部分是模型的第一阶段训练，它使用 C4 数据集（一个包含数百亿个 token 的语料库）进行无监督预训练。

这里的关键词就是题目里的Span Corruption，概括来说是这样的：

从输入序列中随机选取一些连续的 token 片段,替换为哨兵 token，以预测这些哨兵 token 为目标，训练整个模型的基础语言理解能力。

这部分其实和我们之前讲的 Word2Vec 的逻辑是类似的，只是前者训练的是词向量表，而现在我们训练的是整个模型的所有相关参数。
其实还有另外一个相关的概念是 BERT，它的想法是遮住单个 token 后判别恢复，而 T5 改为了遮住连续 token 生成恢复，等涉及到相关内容我们再展开。

拿一个英文句子举例：

"Thank you for inviting me to your party last week"

假设我们抹掉两个 span：

现在，模型的输入和标签其实是这样的：

输入：[替换 span 后的原句子] "Thank you <X> me to your party <Y>" 目标输出：[<哨兵 token 序号>对应预测内容···<结束符>] "<X> for inviting <Y> last week <Z>"

你会发现多了一个<Z>，实际上这是在训练阶段我们手动添加的，作为生成任务的结束符加入学习内容。这和我们之前的语言模型中提到的<EOS>是一个道理。

按这种方式，使用海量数据进行训练后，模型便拥有了基础的语言理解能力。
但要注意，我们要的不是一个“填空模型”，这种做其实就是为了给模型的参数进行一个具备语言理解能力的初始化，所以才被称为“预训练”。

而下面这步，才是实现“统一”的逻辑。

这部分其实是最好理解的部分，但也是实现 NLP 任务统一的最大前提：

给所有使用的数据加一个任务前缀，让 Transformer 架构按前缀生成对应类型的输出序列。

就像这样：

任务	传统做法	T5 的做法
翻译	Encoder-Decoder 架构，标准 Seq2Seq	输入`translate English to German: ...`，输出译文
摘要	专门的 Seq2Seq 模型	输入`summarize: ...`，输出摘要
分类	BERT + 分类头	输入`cola sentence: ...`，输出`acceptable`/`unacceptable`
相似度	双塔 + 回归头	输入`stsb sentence1: ... sentence2: ...`，输出`3.8`
问答	专门的抽取式/生成式模型	输入`question: ... context: ...`，输出答案