首页 > 游戏推荐 >四台M3 Ultra打造1.5TB内存AI超算,RDMA黑科技提速显著

四台M3 Ultra打造1.5TB内存AI超算,RDMA黑科技提速显著

来源:拿铁不加冰 2025-12-26 10:55:16

四台M3 Ultra打造1.5TB内存AI超算,RDMA黑科技提速显著

2025年12月25日,资深工程师Jeff Geerling完成了一项引人注目的技术实践,成功将四台搭载M3 Ultra芯片的Mac Studio整合为一台高性能AI计算集群,实现高达1.5TB的统一内存配置。此次构建依托于最新版本操作系统中一项关键功能——通过Thunderbolt 5接口实现的远程直接内存访问(RDMA),使得各设备之间能够绕过CPU直接读取彼此内存,显著提升了数据交互效率。

该集群在多项性能测试中表现出色。Geekbench 6多核测试结果显示,其整体算力超越了多款主流高性能桌面设备,双精度浮点运算能力突破1TFLOPS,同时在空闲状态下的功耗控制在10瓦以内,展现出优异的能效比。

在AI推理任务中,这套系统同样表现强劲。运行Llama 3.2 3B模型时,单机每秒可处理154.6个token;面对更复杂的Llama 3.1 70B模型,仍能维持每秒14.1个token的输出速度,两项成绩均领先同类配置。尤其在挑战超大规模模型DeepSeek R1 671B时,其他平台因内存限制无法完成加载,而该集群凭借庞大的统一内存资源成功运行,凸显其在处理极端负载场景下的独特优势。

核心技术RDMA over Thunderbolt 5在实际应用中带来了显著性能提升。启用该功能后,内存访问延迟由传统TCP方案的约300微秒压缩至50微秒以下。在使用exo系统进行Qwen3 235B模型测试时,四机协同每秒可生成31.9个token,相较基于llama.cpp和TCP通信的方案提速超过一倍;运行DeepSeek V3.1模型时更是达到每秒32.5个token的处理速度。

尽管整体表现优异,但在高负载持续运行过程中,系统仍偶发崩溃现象,表明当前配置在稳定性方面尚有优化空间。此外,该集群的硬件总成本约为4万美元(折合人民币约28万元),相较于其他同类用途平台,建造成本相对较高。

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

热游推荐

更多
湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。