Attention Residuals:用注意力机制重塑残差连接
论文信息
- 论文:Attention Residuals(AttnRes)
- 来源:HuggingFace Papers
- 团队:Kimi(月之暗面)
核心问题
现代 LLM 普遍采用 PreNorm + 残差连接的架构,但存在一个被长期忽视的缺陷:所有层的输出以固定单位权重累加。
这种无差别聚合导致两个问题:
- 隐状态膨胀:随深度增加,隐藏状态尺寸不受控增长
- 信息稀释:每层的贡献随深度被逐步稀释,越深的层越难保留自己的”声音”
残差连接的公式很简单:
当前层输入 = 前一层输入 + 前一层输出
层层递推后,第 100 层的输入等于前面 99 层输出的简单求和——每一层的声音都一样大。
Attention Residuals 的解法
Kimi 团队提出的方案核心思路:让每一层自主决定如何「倾听」前面各层的声音。
通俗地说,过去像把所有资料整包往后传,现在更像先翻一遍,再挑出最有用的几页带走。这种注意力残差方案可以让模型训练效率提升 25%。
两种实现方案:
- Full AttnRes(全注意力残差):每一层通过 softmax 注意力机制,为前面所有层的输出分配不同权重。像智能秘书一样,知道哪些信息重要、哪些可以忽略。
- Block AttnRes(分块注意力残差):将网络分成若干块(如每 6 层一块),块内保持残差连接,块间使用注意力聚合。仅需 8 个块的摘要信息,就能恢复大部分性能提升,同时保持极低的内存和通信开销。
深度与时间的对偶性
深度方向的残差累积,与时间方向的 RNN 递推存在形式上的对偶性。
在序列建模领域,Transformer 通过注意力机制取代了 RNN 的递推结构,实现了从「线性累积」到「softmax 选择」的跃迁,彻底改变了 NLP。而 AttnRes 在深度维度上完成了同样的进化。
从结构矩阵的角度看,传统残差、Highway 网络、mHC 等变体都相当于在深度方向上做线性注意力;而 AttnRes 实现了真正的 softmax 注意力——这种竞争性归一化机制迫使模型主动选择信息源,而非被动混合。
工程友好性
架构创新往往伴随着工程复杂度的大幅提升,但 AttnRes 的设计充分考虑了大规模训练的现实约束:
- 参数量:每层仅增加一个 RMSNorm 和一个 d 维向量,对总参数量的影响可忽略不计
- 训练开销:Block AttnRes 将显存和通信复杂度从 O(Ld) 降至 O(Nd),配合跨流水线缓存和两阶段计算策略,训练成本增加微乎其微
- 推理延迟:通过在线 softmax 技术,推理阶段的额外延迟控制在 2% 以内
总结
AttnRes 是对 Transformer 基础架构的一次优雅改进。它没有引入复杂的模块,而是在最基础的残差连接上做了「注意力化」升级——从被动累加变为主动选择。这种改动在 48B 参数规模的 Kimi Linear 架构上验证了有效性,值得关注深度学习架构演进的开发者跟踪。