首页 > 人工智能 >大模型架构的下半场

大模型架构的下半场

来源:互联网 2026-04-21 19:13:31

深度扩展的隐忧:当层数增长遭遇停滞的通信 过去十年,深度学习领域的进展遵循着一种高度一致的范式:追求更大规模。无论是模型参数、训练数据还是上下文长度,都在持续扩展。这一策略成效显著:损失函数持续下降,模型能力不断增强,扩展定律为研究团队提供了清晰的资源投入指引。 然而,不同的扩展方向,其技术内涵与实

深度扩展的隐忧:当层数增长遭遇停滞的通信

过去十年,深度学习领域的进展遵循着一种高度一致的范式:追求更大规模。无论是模型参数、训练数据还是上下文长度,都在持续扩展。这一策略成效显著:损失函数持续下降,模型能力不断增强,扩展定律为研究团队提供了清晰的资源投入指引。

然而,不同的扩展方向,其技术内涵与实现难度存在显著差异。序列长度的扩展往往需要真正的机制创新,并已催生出系统的工程优化。数据规模的扩展则相对直接:更多数据通常意味着更低的损失。相比之下,增加模型的宽度与深度,表面上似乎与数据扩展一样简单直接。

长期稳定更新的攒劲资源: >>>点此立即查看<<<

但宽度与深度真的在同等程度上发挥作用吗?

答案是否定的。模型的深度在数量上实现了增长,但在质量层面却未同步提升。近十年来,神经网络层与层之间的核心通信机制并未发生根本性变革。这一现象至关重要,它不仅揭示了深度扩展本身的瓶颈,更凸显了神经网络架构设计中的一个普遍盲区。

研究社区投入了十年时间扩展层内的计算能力,却未能同步提升层间的通信能力。这一现状亟待改变。

大模型架构的下半场

扩展的上半场:成功与局限

要理解上半场的成功之处,最佳方式是审视哪些维度被有效扩展,以及其实现路径。

首先是序列长度。早期的Transformer模型仅能处理数百个token。要实现128K甚至更长的上下文,需要在多个方向持续创新:新的注意力机制(如稀疏、线性、混合注意力)、系统工程优化(例如FlashAttention)、以及位置编码的改进(如RoPE扩展)。研究者和工程师共同构建了一个持续演进的生态,不断优化token间的信息流动方式。其回报是显著的,不仅使模型能够处理超长文档,也为OpenAI-O1DeepSeek-R1等模型的长链推理能力奠定了坚实基础。这正是当团队认真投资于“序列维度信息流动方式”时所获得的丰厚回报。

大模型架构的下半场

△现代大语言模型中参数与数据规模的增长趋势

参数与数据规模的扩展,则最符合人们的直觉。自深度学习兴起之初,经典教程便传授着同一套配方:更多的数据、更宽的层、更深的网络,自然带来更强的表征能力。从GPT-2的15亿参数到如今的数万亿规模,这套配方持续有效。这似乎表明,大模型团队无需引入新机制,只需沿着已验证的方向持续拓展即可。

然而,对于神经网络而言,“更宽”与“更深”并非等同。宽度的扩展是自然的:现代GPU天生擅长处理宽矩阵乘法,注意力机制的演进也日益高效,使得更宽的网络能无缝融入现有架构。

深度的扩展则是另一回事。模型层数确实在增加:从几十层增至上百层。但层间通信的核心机制,本质上仍是ResNet于2015年提出的深度残差连接,即经典的“x + F(x)”公式。自其诞生以来,虽有过诸多改进(如归一化位置、残差缩放、跨层连接),但没有任何改进真正撼动那个“+”号在深度残差中的决定性地位。

残差连接无疑是深度学习的基石之一。没有它,便不会有上百层的Transformer、现代大语言模型,乃至所谓的扩展定律。但基础方案常有一个特点:它们有时会变得过于隐形,以至于无人再去质疑它究竟是最优解,还是仅仅是探索初期找到的第一个可行方案。

可以将其类比为一个有特殊规则的传话游戏。在标准版本中,第1个人向第2个人耳语,第2个人再传给第3个人。传到第18个人时,信息早已失真。这便是不带残差连接的深层网络:每一层只能看到前一层的输出。

残差连接修复了此问题:每个人在传递自身理解的同时,也将之前累积的原始信息原封不动地向下传递。第3个人既能听到第2个人的新解读,也能听到之前的所有内容。原始信号始终被保留,成为不断壮大的合唱中的一个声部。

但问题随之而来:到了第152个人,你同时听到的是152个声音的混合——原始信息加上前151层叠加的内容,全部混杂于一句耳语中。理论上,前面所有人的声音依然存在,但它们已被淹没。如果第152个人需要确切知道第3个人说了什么,他必须费力地从这宏大的合唱中将其分辨出来。

大模型架构的下半场

△在信息累加的传话游戏中,靠后的参与者难以分辨所需的具体内容

通常,第152个人是做不到这一点的。

这就是信息稀释现象。每一层都面临两难:若该层贡献新信息,则可能掩盖之前的内容;若选择保守,则能保留前层传递的已有信息。在此状况下,许多层学会了“保持沉默”,几乎不向残差流中写入实质性的新内容。这样的深度网络在纸面上很深,实际上却很浅。团队堆叠了152层,但其中许多层却未发挥实质作用。

瓶颈并非源于152层网络所需的计算力,而在于信息穿越这些层的通信能力。CPU的发展在几十年前便撞上过同样的墙:处理器速度不断提升,直至内存带宽成为瓶颈,迫使整个行业转向缓存与通信优化。组织管理亦然:一群聪明人的集体创造力,同样受限于他们之间的沟通与协作效率。深度学习正在经历自身的版本:十年来持续增强每一层的能力,而层与层之间的通道,却始终是2015年那条“单车道公路”。

那么,是否存在更好的机制?

现有改进方案及其局限

在相关研究之前,已有许多研究者注意到深度瓶颈问题。多年来,修补方案日趋精巧:例如获得CVPR最佳论文的DenseNet,它保留了每一层的输出,但代价是平方级的开销。采用可学习加权的方案,如DenseFormer、LIMe,降低了成本,但训练完成后权重即固定,每个token、每种上下文都使用相同权重,缺乏灵活性。

字节跳动的Hyper-ConnectionsDeepSeek的mHC另辟蹊径,将通信管道拓宽至N个通道,层间通过混合矩阵连接,相当于在信息高速公路上同时开辟多条车道。但不足之处在于,信息仍需逐层流动,第152层仍无法直接回溯至第3层获取信息。

彩云公司的MUDDFormer实现了混合每层输出的动态化,它能根据每个token的表征生成权重。这在根本方向上是对的:从每一层汲取多少信息,本应取决于正在处理的内容。但同样存在局限:第152层在决定从第3层汲取多少信息时,仅依赖于第152层自身的状态,它并不知晓第3层实际包含了什么。它是在预测哪些层可能有用,而非真正“查看”其内容。

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

热游推荐

更多
湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。