news 2026/4/19 13:55:29

大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

不是。
BPE 结束后,模型拿到的已经是整数序列(token id),下一跳直接就是nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下:

  1. 文本 → BPE 分词 → [token₁, token₂, …]
  2. token → 查表(vocab_size × hidden_dim 的矩阵)→ [e₁, e₂, …]
  3. 后续 Transformer 层在稠密向量上运算。

one-hot 只在教学推导里出现(维度 = vocab_size,1 个 1 其余 0),用来写公式
output = one_hot @ Embedding_matrix
实际代码里直接用embedding(idx)查表,效率更高、内存更省。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 17:26:58

WAF的识别、检测、绕过原理与实战案例

1.WAF简介 1.0.WAF检测原理 WAF通过配置DNS解析地址、软件部署、串联部署、透明部署、网桥部署、反向代理部署、旁路部署等获取攻击流量,基于规则进行攻击特征匹配,或利用其他方式进行攻击检测及阻断。 1.0.1.基于规则匹配 一般都是基于一定的正则语…

作者头像 李华
网站建设 2026/4/17 23:15:56

005JX乘客电梯的PLC控制

第三章 课题任务的分析 3.1 电梯控制方法的分析 随着科学技术的发展、近年来,我国的电梯生产技术得到了迅速发展。目前电梯控制系统主要有三种控制方式:继电路控制系统(“早期安装的电梯多位继电器控制系统)、PLC控制系统、微机控制系统。继电器控制系统…

作者头像 李华
网站建设 2026/4/17 23:15:54

救命神器8个AI论文平台,本科生毕业论文轻松搞定!

救命神器8个AI论文平台,本科生毕业论文轻松搞定! 论文写作的救星,AI 工具如何改变你的学习方式 在当今信息爆炸的时代,学术写作已成为本科生必须面对的一项挑战。无论是课程作业还是毕业论文,都需要大量的时间、精力和…

作者头像 李华
网站建设 2026/4/17 22:37:17

Type-C 140W一拖二,双接EPR扩展功率分配

在笔记本、平板、智能手机成为生活刚需的今天,“充电焦虑” 已成为用户普遍痛点:传统单口线材无法满足多设备并行需求,普通一拖二线材又深陷功率分配失衡、快充效率打折的瓶颈。在此背景下,支持 USB PD3.1 协议的 140W 一拖二快充…

作者头像 李华
网站建设 2026/4/18 22:39:37

今天面试招了个18K的人,从腾讯出来的果然都有两把刷子···

公司前段时间缺人,也面了不少测试,前面一开始瞄准的就是中级的水准,也没指望来大牛,提供的薪资在15-20k,面试的人很多,但平均水平很让人失望。看简历很多都是4年工作经验,但面试中,不…

作者头像 李华
网站建设 2026/4/18 15:56:21

直接上干货!今天咱们聊聊怎么用MATLAB把机械臂玩出花。这玩意儿可不是只能画个三维模型装逼,从底层运动学计算到实时控制都能给你整明白了

Matlab机械臂综合仿真平台,包含运动学、动力学和控制。 MATLAB机器人仿真正逆运动学simulink轨迹规划 机械臂动力学控制等 gui控制仿真平台PUMA机器人 robotics toolbox 先甩个正运动学的代码镇楼: robot seriallink([...Revolute(d, 0.67, a, 0, alp…

作者头像 李华