MoonshotAI Research · 2026

Attention
Residuals

用注意力机制替代 Transformer 的标准残差连接——让每一层选择性地聚合所有前层表示,而非简单均匀叠加。一个即插即用的改动,带来跨越算力规模的持续收益。

1.25×
等效算力提升
+7.5
GPQA-Diamond 提升
9/9
基准测试全面领先
The Problem

标准残差连接的两大缺陷

PreNorm Transformer 每一层以固定权重 1 叠加前层输出。随着网络加深,这种均匀累积导致层贡献被稀释,且隐藏状态的幅值随深度线性增长——无界。

hl = hl−1 + fl(Norm(hl−1))
// 权重恒为 ×1,仅与相邻前层相连,无任何内容感知能力
标准残差:每层仅连接前一层,权重均匀固定
‖hL‖→∞

幅值无界增长

每层输出不断叠加,隐藏状态的模长随深度线性增长,导致训练不稳定——这是 PreNorm 架构的已知缺陷。

O(1/L)

层贡献被稀释

网络越深,单层输出对最终表示的相对影响越小,导致浅层梯度信号衰弱,深层模型收益递减。

≡ ×1

固定权重,无选择性

聚合权重与输入内容完全无关,无论当前 token 是代码、数学还是文本,各层贡献始终等权。

The Solution

Attention Residuals (AttnRes)

用 softmax 注意力替代固定叠加。每层通过一个学习到的伪查询向量,对所有前层表示进行内容感知的加权聚合,权重随输入动态变化。

hl = Σi=0..l−1 αi→l · vi
αi→l = softmaxi( wlT · Norm(vi) )
// wl ∈ ℝd:每层一个学习参数(伪查询);α 随输入内容动态调整
AttnRes:点击任意层,查看它如何关注各前层
高权重 低权重
← 点击一个层节点,查看其对各前层的注意力权重分布
✦ 长距离跨层连接

每层可直接访问任意更早层的表示,无需信息逐层传递,消除深层网络中的信息瓶颈与梯度消失问题。

✦ 内容感知的动态权重

注意力权重 α 由输入决定。处理代码时可更多关注语法层,处理数学时可更多关注计算层,真正做到选择性聚合。

Efficient Variant

Block AttnRes:实用的近似方案

Full AttnRes 需要 O(L·d) 的内存缓存所有层输出。Block AttnRes 将层分组为 N 个块,块内用标准残差,仅在块级别施加跨块注意力,将内存降至 O(N·d)。约 8 个块即可恢复绝大部分收益。

Block AttnRes:块内标准累积 + 块间注意力聚合
O(N·d)

内存大幅降低

N 为块数,远小于层数 L。实验中 N≈8 已足够,相比 Full AttnRes 节省 6× 以上的内存开销。

Drop-in

即插即用替换

仅需替换残差计算逻辑,无需改动整体架构,边际计算开销极低,易于集成到现有训练框架。

~8 块

最优配置

在 Kimi Linear 48B MoE 模型(3B 激活参数)上验证:约 8 个块是性能与效率的最佳平衡点。

Results

全面超越基线的实验结果

在 Kimi Linear 48B / 1.4T tokens 上验证,AttnRes 在全部 9 项基准中均优于基线,多步推理(+7.5 GPQA-Diamond)和代码生成(+3.1 HumanEval)增益尤为显著。

基准测试对比(Kimi Linear 48B / 3B activated)
BenchmarkBaselineAttnResΔ
通用能力
MMLU73.574.6
GPQA-Diamond36.944.4
BBH76.378.0
TriviaQA69.971.8
数学与代码
MATH53.557.1
HumanEval59.162.2
MBPP72.073.9
中文能力
CMMLU82.082.9
C-Eval79.682.5
Scaling Law:AttnRes 以 0.8× 算力达到基线的同等损失
✦ 训练动态改善

AttnRes 有效缓解了 PreNorm 的幅值爆炸:隐藏状态模长在深度方向保持有界,各层梯度范数分布更均匀,训练过程更加稳定可控。

Citation

引用本工作

@article{attnres2026, title = {Attention Residuals}, author = {Chen, Guangyu and Zhang, Yu and Su, Jianlin and others}, year = {2026}, url = {https://github.com/MoonshotAI/Attention-Residuals} }
GitHub 仓库 原始论文 PDF