首页 > 人工智能 >大模型架构的下半场

大模型架构的下半场

来源：互联网 2026-04-21 19:13:31

深度扩展的隐忧：当层数增长遭遇停滞的通信过去十年，深度学习领域的进展遵循着一种高度一致的范式：追求更大规模。无论是模型参数、训练数据还是上下文长度，都在持续扩展。这一策略成效显著：损失函数持续下降，模型能力不断增强，扩展定律为研究团队提供了清晰的资源投入指引。然而，不同的扩展方向，其技术内涵与实

深度扩展的隐忧：当层数增长遭遇停滞的通信

过去十年，深度学习领域的进展遵循着一种高度一致的范式：追求更大规模。无论是模型参数、训练数据还是上下文长度，都在持续扩展。这一策略成效显著：损失函数持续下降，模型能力不断增强，扩展定律为研究团队提供了清晰的资源投入指引。

然而，不同的扩展方向，其技术内涵与实现难度存在显著差异。序列长度的扩展往往需要真正的机制创新，并已催生出系统的工程优化。数据规模的扩展则相对直接：更多数据通常意味着更低的损失。相比之下，增加模型的宽度与深度，表面上似乎与数据扩展一样简单直接。

长期稳定更新的攒劲资源： >>>点此立即查看<<<

但宽度与深度真的在同等程度上发挥作用吗？

答案是否定的。模型的深度在数量上实现了增长，但在质量层面却未同步提升。近十年来，神经网络层与层之间的核心通信机制并未发生根本性变革。这一现象至关重要，它不仅揭示了深度扩展本身的瓶颈，更凸显了神经网络架构设计中的一个普遍盲区。

研究社区投入了十年时间扩展层内的计算能力，却未能同步提升层间的通信能力。这一现状亟待改变。

大模型架构的下半场

扩展的上半场：成功与局限

要理解上半场的成功之处，最佳方式是审视哪些维度被有效扩展，以及其实现路径。

首先是序列长度。早期的Transformer模型仅能处理数百个token。要实现128K甚至更长的上下文，需要在多个方向持续创新：新的注意力机制（如稀疏、线性、混合注意力）、系统工程优化（例如FlashAttention）、以及位置编码的改进（如RoPE扩展）。研究者和工程师共同构建了一个持续演进的生态，不断优化token间的信息流动方式。其回报是显著的，不仅使模型能够处理超长文档，也为OpenAI-O1和DeepSeek-R1等模型的长链推理能力奠定了坚实基础。这正是当团队认真投资于“序列维度信息流动方式”时所获得的丰厚回报。

大模型架构的下半场

△现代大语言模型中参数与数据规模的增长趋势

参数与数据规模的扩展，则最符合人们的直觉。自深度学习兴起之初，经典教程便传授着同一套配方：更多的数据、更宽的层、更深的网络，自然带来更强的表征能力。从GPT-2的15亿参数到如今的数万亿规模，这套配方持续有效。这似乎表明，大模型团队无需引入新机制，只需沿着已验证的方向持续拓展即可。

然而，对于神经网络而言，“更宽”与“更深”并非等同。宽度的扩展是自然的：现代GPU天生擅长处理宽矩阵乘法，注意力机制的演进也日益高效，使得更宽的网络能无缝融入现有架构。

深度的扩展则是另一回事。模型层数确实在增加：从几十层增至上百层。但层间通信的核心机制，本质上仍是ResNet于2015年提出的深度残差连接，即经典的“x + F(x)”公式。自其诞生以来，虽有过诸多改进（如归一化位置、残差缩放、跨层连接），但没有任何改进真正撼动那个“+”号在深度残差中的决定性地位。

残差连接无疑是深度学习的基石之一。没有它，便不会有上百层的Transformer、现代大语言模型，乃至所谓的扩展定律。但基础方案常有一个特点：它们有时会变得过于隐形，以至于无人再去质疑它究竟是最优解，还是仅仅是探索初期找到的第一个可行方案。

可以将其类比为一个有特殊规则的传话游戏。在标准版本中，第1个人向第2个人耳语，第2个人再传给第3个人。传到第18个人时，信息早已失真。这便是不带残差连接的深层网络：每一层只能看到前一层的输出。

残差连接修复了此问题：每个人在传递自身理解的同时，也将之前累积的原始信息原封不动地向下传递。第3个人既能听到第2个人的新解读，也能听到之前的所有内容。原始信号始终被保留，成为不断壮大的合唱中的一个声部。

但问题随之而来：到了第152个人，你同时听到的是152个声音的混合——原始信息加上前151层叠加的内容，全部混杂于一句耳语中。理论上，前面所有人的声音依然存在，但它们已被淹没。如果第152个人需要确切知道第3个人说了什么，他必须费力地从这宏大的合唱中将其分辨出来。

大模型架构的下半场

△在信息累加的传话游戏中，靠后的参与者难以分辨所需的具体内容

通常，第152个人是做不到这一点的。

这就是信息稀释现象。每一层都面临两难：若该层贡献新信息，则可能掩盖之前的内容；若选择保守，则能保留前层传递的已有信息。在此状况下，许多层学会了“保持沉默”，几乎不向残差流中写入实质性的新内容。这样的深度网络在纸面上很深，实际上却很浅。团队堆叠了152层，但其中许多层却未发挥实质作用。

瓶颈并非源于152层网络所需的计算力，而在于信息穿越这些层的通信能力。CPU的发展在几十年前便撞上过同样的墙：处理器速度不断提升，直至内存带宽成为瓶颈，迫使整个行业转向缓存与通信优化。组织管理亦然：一群聪明人的集体创造力，同样受限于他们之间的沟通与协作效率。深度学习正在经历自身的版本：十年来持续增强每一层的能力，而层与层之间的通道，却始终是2015年那条“单车道公路”。

那么，是否存在更好的机制？

现有改进方案及其局限

在相关研究之前，已有许多研究者注意到深度瓶颈问题。多年来，修补方案日趋精巧：例如获得CVPR最佳论文的DenseNet，它保留了每一层的输出，但代价是平方级的开销。采用可学习加权的方案，如DenseFormer、LIMe，降低了成本，但训练完成后权重即固定，每个token、每种上下文都使用相同权重，缺乏灵活性。

字节跳动的Hyper-Connections与DeepSeek的mHC另辟蹊径，将通信管道拓宽至N个通道，层间通过混合矩阵连接，相当于在信息高速公路上同时开辟多条车道。但不足之处在于，信息仍需逐层流动，第152层仍无法直接回溯至第3层获取信息。

彩云公司的MUDDFormer实现了混合每层输出的动态化，它能根据每个token的表征生成权重。这在根本方向上是对的：从每一层汲取多少信息，本应取决于正在处理的内容。但同样存在局限：第152层在决定从第3层汲取多少信息时，仅依赖于第152层自身的状态，它并不知晓第3层实际包含了什么。它是在预测哪些层可能有用，而非真正“查看”其内容。

侠游戏发布此文仅为了传递信息，不代表侠游戏网站认同其观点或证实其描述