OpenAI vs 英伟达：200亿美元级AI推理竞赛爆发｜大模型时代算力与算法的终极博弈

来源：互联网 2026-04-20 22:57:22

OpenAI与英伟达：200亿美元AI推理竞赛开启｜大模型时代算力与算法的关键角逐作者：xiaopi 2025年12月24日，英伟达发布了一则没有配图、没有发布会的简短公告：以200亿美元现金收购Groq公司。消息公布时，硅谷的许多工程师正忙于调整参数——他们刚收到内部邮件，要求将所有推理服务的延

OpenAI与英伟达：200亿美元AI推理竞赛开启｜大模型时代算力与算法的关键角逐

作者：xiaopi

虚拟币交易推荐使用币安交易所进行交易

苹果用户和电脑端用户也可以直接进入币安官网下载：点击访问币安官网下载注册

安卓用户可以直接下载币安安装包：点击下载币安安装包

2025年12月24日，英伟达发布了一则没有配图、没有发布会的简短公告：以200亿美元现金收购Groq公司。消息公布时，硅谷的许多工程师正忙于调整参数——他们刚收到内部邮件，要求将所有推理服务的延迟监控阈值下调18毫秒。

同一天，Groq官网首页悄然撤下了“LPU云服务实时推理延迟：97ms（P99）”的绿色横幅。三天后，其领英主页更新了团队状态：“加入NVIDIA AI基础设施部门”。创始人乔纳森·罗斯的个人简介中，多了一行小字：“Groq前创始人兼首席执行官——现于英伟达领导LPU集成工程。”

2026年4月17日早晨7点13分，OpenAI在官网博客发布了一篇题为《负责任地扩展实时推理》的短文。正文仅有三段：第一段感谢Cerebras过去18个月的联合优化；第二段宣布将采购规模扩大至200亿美元；第三段附上链接——cerebras.com/ipo。

几乎同时，Cerebras向美国证券交易委员会提交了S-1文件。封面页右下角印着一行极小的铅字：“于2026年3月21日机密提交。”文件第42页，“主要客户”章节中，G42的名字已被完全移除。取而代之的是一条新条目：“客户A——约占2025财年收入的61%。”后面括号内注明：“一家总部位于美国的AI研究与部署机构。”

两笔200亿美元的交易，相隔170天，如同同一枚硬币的正反面——一面刻着“收购”，一面刻着“认股”。一面从圣克拉拉发出，一面从旧金山湾区传回。它们之间没有通话记录，没有联合声明，却共享同一个技术坐标：推理延迟的微秒级战场。

没有敲钟仪式，没有红毯。这场战争的前线，是OpenAI数据中心里一排排正在烧录固件的Cerebras WSE-3晶圆级芯片；是英伟达帕洛阿尔托实验室深夜仍亮着灯的FPGA验证板；是Groq原总部楼顶那台尚未拆除的液冷机组，外壳上还贴着褪色的“LPU v4原型——延迟目标：<32ms”标签。

推理并非简单“使用模型”，而是让模型在用户按下回车键的0.8秒内，将答案呈现在浏览器窗口中

训练发生在凌晨三点。那时GPU集群安静地吞下PB级数据，权重在反向传播中缓慢收敛——如同一艘巨轮校准罗盘，一次，便已足够。

推理发生在每一秒。当纽约用户询问“帮我写一封辞职信”，东京用户同时点击“生成会议纪要”，伦敦用户正在输入“解释量子退相干”……这些请求不是排队，而是洪流。它们撞击在推理服务器上，激荡出真实的物理信号：内存控制器的争抢声、PCIe链路的饱和抖动、SRAM缓存命中率跳变的曲线尖峰。

2023年，AI芯片工程师讨论架构时，必提TFLOPS。到了2025年，话题已彻底转向“tokens/sec/Watt”和“在10k RPS下P99延迟低于50ms”。德勤在2026年国际消费电子展展台的大屏上滚动显示一组数字：全球推理请求量——2024年日均420亿次；2025年日均1270亿次；2026年第一季度已突破2100亿次。旁边一行小字格外醒目：“其中，<128 token的响应占比73.6%，平均等待时间容忍阈值为41毫秒。”

杨元庆在国际消费电子展主舞台演示ThinkSystem AI服务器时，没有谈论HBM带宽，而是举起一块Cerebras WSE-3芯片模型——比他手掌还大，通体哑光黑。“看这个尺寸，”他边说边用指尖划过芯片表面，“不是为了炫技。而是将44GB SRAM，直接固定在90万个核心的最近处。”

H100的显存墙，是推理工程师每天都会撞上的玻璃门

英伟达H100的HBM3堆叠在GPU封装之外。数据从HBM传输到计算单元，需要经过32毫米长的硅中介层、128条1024位总线、至少7次片上路由仲裁。实测显示：加载一个700亿参数模型的单层权重，平均耗时1.8毫秒——这还不包括计算本身。

OpenAI Codex团队在2025年秋季进行的一次压力测试中，H100集群在每秒查询率突破8000后，P99延迟突然从38毫秒跃升至112毫秒。日志里反复出现同一行报错：“在内存控制器5号检测到HBM带宽饱和”。工程师在Slack频道里发了一个GIF动图：一只仓鼠在滚轮上疯狂奔跑，滚轮上标着“HBM3”，仓鼠爪子底下压着一行字：“我在搬运字节，不是在计算。”

Cerebras WSE-3的思路则截然不同，它将整块44GB SRAM直接蚀刻在晶圆上，与计算核心处于同一硅片。数据搬运距离缩短至200微米以内——相当于把数据从北京中关村走到五道口地铁站的距离，缩短到了从左耳垂到右耳垂。

公开基准测试显示，WSE-3运行Llama-3-700亿参数模型的token生成速度是H100的17.3倍。但更关键的是稳定性：在持续12小时、峰值每秒查询率达25000的压力下，P99延迟标准差仅为±2.1毫秒。英伟达Blackwell B200同期的测试报告第8页脚注写道：“延迟一致性仍是下一代内存子系统的重点改进领域。”

Groq办公室清空那天，工程师们带走的不是工牌，而是几块LPU开发板和一张手写便签

2025年12月24日下午4点，位于山景城的Groq总部大楼电梯停运。安保系统切换至英伟达统一认证协议。IT组在最后一批设备装箱前，拍下了机房墙上的白板照片：中间画着LPU v5微架构草图，右侧列着三行待办事项：“① SRAM存储体分区逻辑——已完成；② PCIe Gen6向后兼容性——进行中；③ 片上推理调度器v2——受热模拟阻碍。”

便签纸贴在白板右下角，字迹潦草：“乔纳森说，v5调度器必须在合并前跑通Codex实时流式处理管道。——亚历克斯，12月23日”

200亿美元的收购金额，对应着Groq截至交割日的全部知识产权、137项专利、7个未公开的RTL模块，以及一份附件：“关键人员留任协议——涵盖42名工程师，3年归属期，加速条款在LPU集成推理栈首次部署于英伟达DGX云时触发。”

财经媒体称此为“英伟达史上最昂贵的技术赎金”。但真正让半导体行业震动的，是收购完成一周后，英伟达开发者官网上悄悄发布的新文档：《LPU协同执行模式：将Groq运行时集成到CUDA图中》。文档第3节明确指出：“LPU执行上下文可通过统一的流管理器与CUDA内核一同调度——从而实现混合计算图，其中内存密集型的推理阶段卸载到LPU，而计算密集型的层则保留在GPU上。”

你看，它没有说“替代”，而是说“混合”。没有说“取代H100”，而是说“让H100少干点搬数据的活”。

OpenAI给Cerebras支票的背面，写着三行小字

2026年1月那份100亿美元的采购协议，签署时双方都使用了实体钢印。但4月17日升级为200亿美元后，OpenAI法务部发来的补充条款PDF中，第12.4条写道：“买方有权在首次公开募股完成后，指派一名观察员加入卖方董事会，并可完全访问非公开技术路线图和晶圆制造良率报告。”

那10亿美元的数据中心建设资金，不走常规采购流程。OpenAI工程基建团队直接派遣了5名设施工程师入驻Cerebras圣何塞工厂，任务清单第一条：“重新设计冷却歧管布局，以支持每机架300千瓦功率密度——依据OpenAI推理集群规范v3.1。”

而最关键的认股权证条款藏在附件E：“行权价格设定为首次公开募股发行价的85%，若后续融资轮对Cerebras的估值低于350亿美元，则享有完全棘轮调整。”

这早已超越了传统的供应商管理。这是将Cerebras的生产线，变成了OpenAI推理技术栈的延伸。就像当年苹果把三星的晶圆厂，变成A系列芯片的专属流水线——只不过这次，OpenAI拿的不是设计权，而是“调度权”：何时使用多少WSE-3、何时切换回GPU、何时将流量导向自研的专用集成电路原型机，全由OpenAI的推理编排器决定。

Cerebras S-1文件第7页，“风险因素”栏中，第三条被加粗

“我们严重依赖单一客户，其业务模式包括为其推理工作负载开发和部署自研的专用集成电路，若此类开发进度超出当前时间表，可能对我们的未来收入产生重大不利影响。”

这句话下面，跟着一行斜体小字：“此处提及的客户已公开披露其专用集成电路开发计划，首颗芯片预计于2026年第四季度流片。”

招股书“募集资金用途”章节说明了300亿美元融资的分配：42%用于先进封装产线扩建；28%投入WSE-4研发；15%建立欧洲客户支持中心；剩下的15%，划入一个新科目：“战略生态系统发展基金”——说明文字是：“与选定的AI平台提供商共同开发推理优化工具链，包括联合编译器开发和运行时调度器集成。”

没有点名。但所有读过OpenAI 2026年开发者日议程的人都知道，“选定的AI平台提供商”里，第一个名字就是OpenAI。

两个200亿美元，不是终点。而是同一场静默战争中，攻守双方同时扣下的扳机——英伟达的扳机射出收购合同，OpenAI的扳机打出认股协议。子弹飞行途中，Cerebras的晶圆正在阿斯麦光刻机里旋转，Groq的LPU代码正被编译进英伟达的CUDA图，而OpenAI的专用集成电路流片订单，静静躺在台积电南科园区的优先队列里。

这场战争没有硝烟。它的战报，是每毫秒下降的P99延迟；它的勋章，是每瓦特上升的tokens/sec；它的降书，将是未来某份财报中，英伟达数据中心业务里“推理加速收入”占比首次超过“训练加速收入”的那一刻。

Cerebras的首次公开募股申请，不是上市敲钟的预告。它是推理时代的第一声心跳监测仪警报——滴。滴。滴。

侠游戏发布此文仅为了传递信息，不代表侠游戏网站认同其观点或证实其描述