首页 > web3 >OpenAI vs 英伟达:200亿美元级AI推理竞赛爆发|大模型时代算力与算法的终极博弈

OpenAI vs 英伟达:200亿美元级AI推理竞赛爆发|大模型时代算力与算法的终极博弈

来源:互联网 2026-04-20 22:57:22

OpenAI与英伟达:200亿美元AI推理竞赛开启|大模型时代算力与算法的关键角逐 作者:xiaopi 2025年12月24日,英伟达发布了一则没有配图、没有发布会的简短公告:以200亿美元现金收购Groq公司。消息公布时,硅谷的许多工程师正忙于调整参数——他们刚收到内部邮件,要求将所有推理服务的延

OpenAI与英伟达:200亿美元AI推理竞赛开启|大模型时代算力与算法的关键角逐

作者:xiaopi

OpenAI vs 英伟达:200亿美元级AI推理竞赛爆发|大模型时代算力与算法的终极博弈

虚拟币交易推荐使用币安交易所进行交易

苹果用户和电脑端用户也可以直接进入币安官网下载:点击访问币安官网下载注册

安卓用户可以直接下载币安安装包:点击下载币安安装包

2025年12月24日,英伟达发布了一则没有配图、没有发布会的简短公告:以200亿美元现金收购Groq公司。消息公布时,硅谷的许多工程师正忙于调整参数——他们刚收到内部邮件,要求将所有推理服务的延迟监控阈值下调18毫秒。

同一天,Groq官网首页悄然撤下了“LPU云服务实时推理延迟:97ms(P99)”的绿色横幅。三天后,其领英主页更新了团队状态:“加入NVIDIA AI基础设施部门”。创始人乔纳森·罗斯的个人简介中,多了一行小字:“Groq前创始人兼首席执行官——现于英伟达领导LPU集成工程。”

2026年4月17日早晨7点13分,OpenAI在官网博客发布了一篇题为《负责任地扩展实时推理》的短文。正文仅有三段:第一段感谢Cerebras过去18个月的联合优化;第二段宣布将采购规模扩大至200亿美元;第三段附上链接——cerebras.com/ipo。

几乎同时,Cerebras向美国证券交易委员会提交了S-1文件。封面页右下角印着一行极小的铅字:“于2026年3月21日机密提交。”文件第42页,“主要客户”章节中,G42的名字已被完全移除。取而代之的是一条新条目:“客户A——约占2025财年收入的61%。”后面括号内注明:“一家总部位于美国的AI研究与部署机构。”

两笔200亿美元的交易,相隔170天,如同同一枚硬币的正反面——一面刻着“收购”,一面刻着“认股”。一面从圣克拉拉发出,一面从旧金山湾区传回。它们之间没有通话记录,没有联合声明,却共享同一个技术坐标:推理延迟的微秒级战场。

没有敲钟仪式,没有红毯。这场战争的前线,是OpenAI数据中心里一排排正在烧录固件的Cerebras WSE-3晶圆级芯片;是英伟达帕洛阿尔托实验室深夜仍亮着灯的FPGA验证板;是Groq原总部楼顶那台尚未拆除的液冷机组,外壳上还贴着褪色的“LPU v4原型——延迟目标:<32ms”标签。

推理并非简单“使用模型”,而是让模型在用户按下回车键的0.8秒内,将答案呈现在浏览器窗口中

训练发生在凌晨三点。那时GPU集群安静地吞下PB级数据,权重在反向传播中缓慢收敛——如同一艘巨轮校准罗盘,一次,便已足够。

推理发生在每一秒。当纽约用户询问“帮我写一封辞职信”,东京用户同时点击“生成会议纪要”,伦敦用户正在输入“解释量子退相干”……这些请求不是排队,而是洪流。它们撞击在推理服务器上,激荡出真实的物理信号:内存控制器的争抢声、PCIe链路的饱和抖动、SRAM缓存命中率跳变的曲线尖峰。

2023年,AI芯片工程师讨论架构时,必提TFLOPS。到了2025年,话题已彻底转向“tokens/sec/Watt”和“在10k RPS下P99延迟低于50ms”。德勤在2026年国际消费电子展展台的大屏上滚动显示一组数字:全球推理请求量——2024年日均420亿次;2025年日均1270亿次;2026年第一季度已突破2100亿次。旁边一行小字格外醒目:“其中,<128 token的响应占比73.6%,平均等待时间容忍阈值为41毫秒。”

杨元庆在国际消费电子展主舞台演示ThinkSystem AI服务器时,没有谈论HBM带宽,而是举起一块Cerebras WSE-3芯片模型——比他手掌还大,通体哑光黑。“看这个尺寸,”他边说边用指尖划过芯片表面,“不是为了炫技。而是将44GB SRAM,直接固定在90万个核心的最近处。”

H100的显存墙,是推理工程师每天都会撞上的玻璃门

英伟达H100的HBM3堆叠在GPU封装之外。数据从HBM传输到计算单元,需要经过32毫米长的硅中介层、128条1024位总线、至少7次片上路由仲裁。实测显示:加载一个700亿参数模型的单层权重,平均耗时1.8毫秒——这还不包括计算本身。

OpenAI Codex团队在2025年秋季进行的一次压力测试中,H100集群在每秒查询率突破8000后,P99延迟突然从38毫秒跃升至112毫秒。日志里反复出现同一行报错:“在内存控制器5号检测到HBM带宽饱和”。工程师在Slack频道里发了一个GIF动图:一只仓鼠在滚轮上疯狂奔跑,滚轮上标着“HBM3”,仓鼠爪子底下压着一行字:“我在搬运字节,不是在计算。”

Cerebras WSE-3的思路则截然不同,它将整块44GB SRAM直接蚀刻在晶圆上,与计算核心处于同一硅片。数据搬运距离缩短至200微米以内——相当于把数据从北京中关村走到五道口地铁站的距离,缩短到了从左耳垂到右耳垂。

公开基准测试显示,WSE-3运行Llama-3-700亿参数模型的token生成速度是H100的17.3倍。但更关键的是稳定性:在持续12小时、峰值每秒查询率达25000的压力下,P99延迟标准差仅为±2.1毫秒。英伟达Blackwell B200同期的测试报告第8页脚注写道:“延迟一致性仍是下一代内存子系统的重点改进领域。”

Groq办公室清空那天,工程师们带走的不是工牌,而是几块LPU开发板和一张手写便签

2025年12月24日下午4点,位于山景城的Groq总部大楼电梯停运。安保系统切换至英伟达统一认证协议。IT组在最后一批设备装箱前,拍下了机房墙上的白板照片:中间画着LPU v5微架构草图,右侧列着三行待办事项:“① SRAM存储体分区逻辑——已完成;② PCIe Gen6向后兼容性——进行中;③ 片上推理调度器v2——受热模拟阻碍。”

便签纸贴在白板右下角,字迹潦草:“乔纳森说,v5调度器必须在合并前跑通Codex实时流式处理管道。——亚历克斯,12月23日”

200亿美元的收购金额,对应着Groq截至交割日的全部知识产权、137项专利、7个未公开的RTL模块,以及一份附件:“关键人员留任协议——涵盖42名工程师,3年归属期,加速条款在LPU集成推理栈首次部署于英伟达DGX云时触发。”

财经媒体称此为“英伟达史上最昂贵的技术赎金”。但真正让半导体行业震动的,是收购完成一周后,英伟达开发者官网上悄悄发布的新文档:《LPU协同执行模式:将Groq运行时集成到CUDA图中》。文档第3节明确指出:“LPU执行上下文可通过统一的流管理器与CUDA内核一同调度——从而实现混合计算图,其中内存密集型的推理阶段卸载到LPU,而计算密集型的层则保留在GPU上。”

你看,它没有说“替代”,而是说“混合”。没有说“取代H100”,而是说“让H100少干点搬数据的活”。

OpenAI给Cerebras支票的背面,写着三行小字

2026年1月那份100亿美元的采购协议,签署时双方都使用了实体钢印。但4月17日升级为200亿美元后,OpenAI法务部发来的补充条款PDF中,第12.4条写道:“买方有权在首次公开募股完成后,指派一名观察员加入卖方董事会,并可完全访问非公开技术路线图和晶圆制造良率报告。”

那10亿美元的数据中心建设资金,不走常规采购流程。OpenAI工程基建团队直接派遣了5名设施工程师入驻Cerebras圣何塞工厂,任务清单第一条:“重新设计冷却歧管布局,以支持每机架300千瓦功率密度——依据OpenAI推理集群规范v3.1。”

而最关键的认股权证条款藏在附件E:“行权价格设定为首次公开募股发行价的85%,若后续融资轮对Cerebras的估值低于350亿美元,则享有完全棘轮调整。”

这早已超越了传统的供应商管理。这是将Cerebras的生产线,变成了OpenAI推理技术栈的延伸。就像当年苹果把三星的晶圆厂,变成A系列芯片的专属流水线——只不过这次,OpenAI拿的不是设计权,而是“调度权”:何时使用多少WSE-3、何时切换回GPU、何时将流量导向自研的专用集成电路原型机,全由OpenAI的推理编排器决定。

Cerebras S-1文件第7页,“风险因素”栏中,第三条被加粗

“我们严重依赖单一客户,其业务模式包括为其推理工作负载开发和部署自研的专用集成电路,若此类开发进度超出当前时间表,可能对我们的未来收入产生重大不利影响。”

这句话下面,跟着一行斜体小字:“此处提及的客户已公开披露其专用集成电路开发计划,首颗芯片预计于2026年第四季度流片。”

招股书“募集资金用途”章节说明了300亿美元融资的分配:42%用于先进封装产线扩建;28%投入WSE-4研发;15%建立欧洲客户支持中心;剩下的15%,划入一个新科目:“战略生态系统发展基金”——说明文字是:“与选定的AI平台提供商共同开发推理优化工具链,包括联合编译器开发和运行时调度器集成。”

没有点名。但所有读过OpenAI 2026年开发者日议程的人都知道,“选定的AI平台提供商”里,第一个名字就是OpenAI。

两个200亿美元,不是终点。而是同一场静默战争中,攻守双方同时扣下的扳机——英伟达的扳机射出收购合同,OpenAI的扳机打出认股协议。子弹飞行途中,Cerebras的晶圆正在阿斯麦光刻机里旋转,Groq的LPU代码正被编译进英伟达的CUDA图,而OpenAI的专用集成电路流片订单,静静躺在台积电南科园区的优先队列里。

这场战争没有硝烟。它的战报,是每毫秒下降的P99延迟;它的勋章,是每瓦特上升的tokens/sec;它的降书,将是未来某份财报中,英伟达数据中心业务里“推理加速收入”占比首次超过“训练加速收入”的那一刻。

Cerebras的首次公开募股申请,不是上市敲钟的预告。它是推理时代的第一声心跳监测仪警报——滴。滴。滴。

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。