昨天深夜调一个BERT模型部署,显存又爆了。盯着监控面板上那条陡峭的曲线,我忽然想起三年前同样的场景——那时候我们还在争论要不要上Transformer。从BERT到GPT,再到最近冒出来的Mamba,这条演化路径背后到底藏着什么逻辑?今天不聊具体代码,咱们聊聊这条路上的风景和还没修好的桥。
一、效率这条暗线
BERT时代我们最头疼的是显存。多头注意力那个O(n²)的复杂度,处理长文本时简直要命。当时团队里有人提议:“能不能把attention矩阵拆了?”现在回头看,那其实就是稀疏化思想的雏形。GPT系列用decoder-only结构砍掉了一半计算量,但本质还是平方复杂度。
直到Mamba这类状态空间模型出现,事情开始有意思了。它把序列建模问题转换成了微分方程求解,线性复杂度处理长序列——这个思路转变很关键。就像当年从RNN到Transformer的跳跃,现在是从Transformer到SSM的又一次跳跃。但注意,Mamba不是万能药,它在短序列上的表现反而可能不如attention。
# 伪代码示意:传统attention vs 状态空间defattention_ops(seq_len)