Transformer架构完全解析：从自注意力到文本分类实战-洪萨配资

Transformer架构完全解析：从自注意力到文本分类实战

掌握自然语言处理领域的革命性架构

2017年，一篇名为《Attention Is All You Need》的论文彻底改变了自然语言处理领域的格局。这篇论文的核心思想非常简单：神经注意力机制本身就可以构建强大的序列模型，无需循环层或卷积层。

今天，我将带你深入探索Transformer架构的每一个细节，从理论基础到实际应用，并提供完整的Python实现代码。

1. 理解自注意力的本质

想象一下你在阅读技术文章时的行为：你会略读某些章节而精读重点内容，这取决于你的目标和兴趣。神经注意力的思想与此惊人相似：并非所有输入信息都同等重要。

1.1 注意力的两种早期形式

在深度学习中，注意力的概念早有雏形：

CNN中的最大汇聚：在空间区域内选择最重要的特征
TF-IDF规范化：根据信息量赋予词元不同权重

但自注意力更进一步：它让特征上下文感知。在嵌入空间中，每个词不再有固定位置，而是根据周围词动态调整。

1.2 自注意力机制详解

看这个例子：“The train left the station on time”。这里的"station"是什么意思？通过自注意力，我们可以计算"station"与句中每个词的相关性：

# 自注意力的NumPy风格伪代码defself_attention(input_sequence):# 输入: 形状为(sequence_length, embed_dim)# 1. 计算成对注意力分数scores=np.dot(input_sequence,input_sequence.T)# 2. 应用softmax获取归一化权重attention_weights=softmax(scores)# 3. 使用权重对输入进行加权求和output=np.dot(attention_weights,input_sequence)returnoutput

自注意力让模型能够动态调整每个词的表示，捕捉"station"在"train station"和"radio station"中的不同含义。

2. 多头注意力：注意力机制的增强版

Keras中的MultiHeadAttention层并不是简单重复三次输入，而是实现了更强大的机制：

# MultiHeadAttention的基本用法num_heads=4embed_dim=256mha_layer=MultiHeadAttention(num_heads=num_heads,key_dim=embed_dim)outputs=mha_layer(inputs,inputs,inputs)# 查询、键、值

2.1 查询-键-值模型

为什么需要三个输入？这来自信息检索的隐喻：

查询（Query）：你想找什么
键（Key）：数据库中项目的标签
值（Value）：实际的项目内容

# 通用自注意力公式outputs=sum(values*pairwise_scores(query,keys))

在序列分类中，查询、键、值通常是同一个序列，让每个词元都能从整个序列的上下文中获益。

2.2 多头设计原理

多头注意力的核心思想：将注意力分解到多个子空间，让模型能够学习不同类型的关注模式。

每个头都有自己的查询、键、值投影矩阵，分别学习不同的特征组合方式：

classMultiHeadAttention(layers.Layer):def__init__(self,num_heads,key_dim):super().__init__()self.num_heads=num_heads self.key_dim=key_dimdefcall(self,query,key,value):# 1. 线性投影q=self.linear_q(query)# 形状: [batch, seq_len, num_heads, depth]k=self.linear_k(key)v=self.linear_v(value)# 2. 分割为多个头q=split_heads(q,self.num_heads)k=split_heads(k,self.num_heads)v=split_heads(v,self.num_heads)# 3. 每个头独立计算注意力attention_outputs=[]foriinrange(self.num_heads):# 计算缩放点积注意力scores=tf.matmul(q[i],k[i],transpose_b=True)weights=tf.nn.softmax(scores)head_output=tf.matmul(weights,v[i])attention_outputs.append(head_output)# 4. 合并所有头的输出output=combine_heads(attention_outputs)returnoutput

3. Transformer编码器实现

Transformer编码器是架构的核心组件，它结合了多头注意力和前馈网络，并添加了残差连接和层规范化：

classTransformerEncoder(layers.Layer):def__init__(self,embed_dim,dense_dim,num_heads,**kwargs):super().__init__(**kwargs)self.embed_dim=embed_dim self.dense_dim=dense_dim self.num_heads=num_heads# 多头注意力层self.attention=layers.MultiHeadAttention(num_heads=num_heads,key_dim=embed_dim)# 前馈网络self.dense_proj=keras.Sequential([layers.Dense(dense_dim,activation="relu"),layers.Dense(embed_dim)])# 层规范化self.layernorm_1=layers.LayerNormalization()self.layernorm_2=layers.LayerNormalization()defcall(self,inputs,mask=None):# 自注意力ifmaskisnotNone:mask=mask[:,tf.newaxis,:]attention_output=self.attention(inputs,inputs,attention_mask=mask)# 第一个残差连接 + 层规范化proj_input=self.layernorm_1(inputs+attention_output)# 前馈网络proj_output=self.dense_proj(proj_input)# 第二个残差连接 + 层规范化returnself.layernorm_2(proj_input+proj_output)

3.1 为什么使用LayerNormalization而不是BatchNormalization？

处理序列数据时，LayerNormalization比BatchNormalization更合适：

# LayerNormalization：对每个样本独立规范化deflayernorm_naive(x):mean=np.mean(x,axis=-1,keepdims=True)std=np.std(x,axis=-1,keepdims=True)return(x-mean)/(std+1e-5)# BatchNormalization：跨批次规范化（不适合序列数据）defbatchnorm_naive(x,training=True):iftraining:mean=np.mean(x,axis=0)# 跨批次std=np.std(x,axis=0)return(x-mean)/(std+1e-5)

LayerNormalization在每个序列内部规范化，更适合处理长度不一的序列数据。

4. 缺失的一环：位置编码

现在揭晓一个关键问题：基础的Transformer编码器并不考虑词序！它本质上处理的是词袋，而不是序列。

解决方案：位置编码。

4.1 位置嵌入实现

classPositionEmbedding(layers.Layer):def__init__(self,sequence_length,input_dim,output_dim,**kwargs):super().__init__(**kwargs)# 词嵌入self.token_embeddings=layers.Embedding(input_dim=input_dim,output_dim=output_dim)# 位置嵌入self.position_embeddings=layers.Embedding(input_dim=sequence_length,output_dim=output_dim)self.sequence_length=sequence_length self.input_dim=input_dim self.output_dim=output_dimdefcall(self,inputs):length=tf.shape(inputs)[-1]positions=tf.range(start=0,limit=length,delta=1)# 获取词嵌入和位置嵌入embedded_tokens=self.token_embeddings(inputs)embedded_positions=self.position_embeddings(positions)# 相加得到最终嵌入returnembedded_tokens+embedded_positions

5. 完整Transformer文本分类模型

defcreate_transformer_model_with_position():"""创建带位置嵌入的Transformer文本分类模型"""vocab_size=20000sequence_length=600embed_dim=256num_heads=2dense_dim=32# 输入层inputs=keras.Input(shape=(None,),dtype="int64")# 位置嵌入x=PositionEmbedding(sequence_length,vocab_size,embed_dim)(inputs)# Transformer编码器x=TransformerEncoder(embed_dim,dense_dim,num_heads)(x)# 全局池化和分类x=layers.GlobalMaxPooling1D()(x)x=layers.Dropout(0.5)(x)outputs=layers.Dense(1,activation="sigmoid")(x)# 构建模型model=keras.Model(inputs,outputs)model.compile(optimizer="rmsprop",loss="binary_crossentropy",metrics=["accuracy"])returnmodel

6. 关键发现：何时使用Transformer vs 词袋模型

基于大量实验，我们发现一个简单的经验法则：

训练样本数 ÷ 平均样本词数 = 选择依据

如果比例 < 1500：使用词袋模型（训练快，效果好）
如果比例 > 1500：使用Transformer模型（需要更多数据但性能更强）

6.1 示例分析

以IMDB数据集为例：

训练样本：20,000
平均词数：233
比例：20,000 ÷ 233 ≈ 86 < 1500

结论：应该使用词袋模型（在实践中确实表现更好）

7. 实战代码：完整训练流程

defmain():"""完整训练流程"""# 1. 加载IMDB数据(x_train,y_train),(x_test,y_test)=keras.datasets.imdb.load_data(num_words=20000)# 2. 填充序列x_train=keras.preprocessing.sequence.pad_sequences(x_train,maxlen=600)x_test=keras.preprocessing.sequence.pad_sequences(x_test,maxlen=600)# 3. 创建并训练模型model=create_transformer_model_with_position()# 4. 训练配置callbacks=[keras.callbacks.ModelCheckpoint("transformer_encoder.keras",save_best_only=True)]# 5. 训练history=model.fit(x_train,y_train,batch_size=32,epochs=10,validation_split=0.2,callbacks=callbacks)# 6. 评估test_loss,test_acc=model.evaluate(x_test,y_test)print(f"测试准确率:{test_acc:.3f}")returnmodel,history