Attention Residuals：用注意力机制重塑残差连接

论文信息

现代 LLM 普遍采用 PreNorm + 残差连接的架构，但存在一个被长期忽视的缺陷：所有层的输出以固定单位权重累加。

这种无差别聚合导致两个问题：

残差连接的公式很简单：

当前层输入 = 前一层输入 + 前一层输出

层层递推后，第 100 层的输入等于前面 99 层输出的简单求和——每一层的声音都一样大。

Kimi 团队提出的方案核心思路：让每一层自主决定如何「倾听」前面各层的声音。

通俗地说，过去像把所有资料整包往后传，现在更像先翻一遍，再挑出最有用的几页带走。这种注意力残差方案可以让模型训练效率提升 25%。

两种实现方案：

Full AttnRes（全注意力残差）：每一层通过 softmax 注意力机制，为前面所有层的输出分配不同权重。像智能秘书一样，知道哪些信息重要、哪些可以忽略。
Block AttnRes（分块注意力残差）：将网络分成若干块（如每 6 层一块），块内保持残差连接，块间使用注意力聚合。仅需 8 个块的摘要信息，就能恢复大部分性能提升，同时保持极低的内存和通信开销。

深度方向的残差累积，与时间方向的 RNN 递推存在形式上的对偶性。

在序列建模领域，Transformer 通过注意力机制取代了 RNN 的递推结构，实现了从「线性累积」到「softmax 选择」的跃迁，彻底改变了 NLP。而 AttnRes 在深度维度上完成了同样的进化。

从结构矩阵的角度看，传统残差、Highway 网络、mHC 等变体都相当于在深度方向上做线性注意力；而 AttnRes 实现了真正的 softmax 注意力——这种竞争性归一化机制迫使模型主动选择信息源，而非被动混合。

架构创新往往伴随着工程复杂度的大幅提升，但 AttnRes 的设计充分考虑了大规模训练的现实约束：

AttnRes 是对 Transformer 基础架构的一次优雅改进。它没有引入复杂的模块，而是在最基础的残差连接上做了「注意力化」升级——从被动累加变为主动选择。这种改动在 48B 参数规模的 Kimi Linear 架构上验证了有效性，值得关注深度学习架构演进的开发者跟踪。