news 2026/2/28 10:11:33

Transformer核心组件功能对照表

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Transformer核心组件功能对照表

Transformer核心组件功能对照表

模块名称所属位置核心功能关键作用
Input Embedding输入侧前置将离散的输入词(如英文单词)映射为固定维度的向量。把人类可理解的文字转化为模型能处理的数值化语义表示。
Output Embedding输出侧前置将已生成的目标词(如已翻译的中文词)映射为向量,通常与Input Embedding共享权重。保证输入、输出的语义空间一致,减少参数数量,提升语义对齐效果。
Positional Encoding输入/输出侧前置通过三角函数或可学习参数,为词向量加入位置信息。弥补Transformer无循环结构的缺陷,让模型捕捉序列的顺序依赖(如“我吃饭”和“饭吃我”的区别)。
Multi-Head Attention(自注意力)编码器内部第一层并行计算多个注意力头,让每个位置关注输入序列的所有位置。捕捉输入序列内部的全局语义依赖(如长句中“主语”和“宾语”的关联)。
Add & Norm编码器/解码器子层后先做残差连接(子层输入+子层输出),再做层归一化。缓解梯度消失问题,稳定训练过程,加速模型收敛。
Feed Forward编码器/解码器内部第二层对每个位置的向量做独立的非线性变换(通常是两层全连接+ReLU)。增强模型的特征表达能力,捕捉更复杂的语义模式。
Masked Multi-Head Attention(掩码自注意力)解码器内部第一层与自注意力类似,但会遮挡未来位置的信息(生成第3个词时,只能看前2个词)。保证生成的自回归性,避免模型“偷看”未来信息,符合人类逐词生成的逻辑。
Encoder-Decoder Attention(编解码注意力)解码器内部第二层以编码器输出为Key/Value,解码器当前状态为Query,计算注意力。实现输入与输出的语义对齐(如翻译时“英文单词”与“中文单词”的对应),让生成的内容更贴合输入语义。
Linear(线性层)输出层将解码器的输出向量映射到整个目标词表的维度。将特征向量转化为词表概率分布的对数形式。
Softmax输出层将线性层的输出转为0-1之间的概率分布。得到每个词的生成概率,选择概率最高的词作为下一个生成结果。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/27 8:52:29

热电联产系统智能经济调度:深度强化学习之路

深度强化学习电气工程复现文章,适合小白学习 关键词:热电联产经济调度 深度强化学习 近端策略优化 编程语言:python平台 主题:热电联产系统智能经济调度:一种深度强化学习方法 内容简介: 本文提出了一种用于…

作者头像 李华
网站建设 2026/2/28 5:10:17

基于ssm的农业管理系统8y15w544(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表 开题报告内容 课题名称: 基于SSM框架的农业管理系统的设计与实现 一、 选题依据(研究背景与意义) 1. 研究背景 随着我国乡村振兴战略的全面推进和数字乡村建设的深入开展,传统农业正面临向现代化、精细化、智…

作者头像 李华
网站建设 2026/2/21 12:55:55

基于ssm社区老人健康服务跟踪系统l54o0ud2(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表 开题报告内容 基于SSM的社区老人健康服务跟踪系统开题报告 一、选题背景与意义 选题背景 随着全球人口老龄化的加速推进,我国老年人口比例持续上升,社区老年人的健康问题日益成为社会关注的焦点。传统的社区健康服务模式存在诸多弊…

作者头像 李华
网站建设 2026/2/11 20:13:12

开关磁阻电机控制仿真:Matlab 2016b的探索之旅

开关磁阻电机控制仿真(matlab 2016b版本仿真模型 自用) 模型包涵: 开关磁阻电机传统控制:电流斩波控制、电压PWM控制、角度位置控制。 智能控制:12/8三相开关磁阻电机有限元分析本体建模、转矩分配函数控制、模糊PID控制、模糊角度控制、神经…

作者头像 李华
网站建设 2026/2/26 6:17:12

政策破冰:AI测试示范区的三重战略价值

山东菏�成为全国首个AI测试创新示范区,标志着国家层面对智能化测试技术落地的战略扶持。该示范区将聚焦金融、电商、工业软件三大领域,提供AI测试沙盒环境与算力补贴,加速企业级应用验证。从测试工程师视角看,这一政策…

作者头像 李华
网站建设 2026/2/17 4:15:03

【开题答辩全过程】以 基于安卓的空巢老人服务平台的开发为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华