首页 > 游戏推荐 >四台M3 Ultra打造1.5TB内存AI超算，RDMA黑科技提速显著

四台M3 Ultra打造1.5TB内存AI超算，RDMA黑科技提速显著

来源：拿铁不加冰 2025-12-26 10:55:16

2025年12月25日，资深工程师Jeff Geerling完成了一项引人注目的技术实践，成功将四台搭载M3 Ultra芯片的Mac Studio整合为一台高性能AI计算集群，实现高达1.5TB的统一内存配置。此次构建依托于最新版本操作系统中一项关键功能——通过Thunderbolt 5接口实现的远程直接内存访问（RDMA），使得各设备之间能够绕过CPU直接读取彼此内存，显著提升了数据交互效率。

该集群在多项性能测试中表现出色。Geekbench 6多核测试结果显示，其整体算力超越了多款主流高性能桌面设备，双精度浮点运算能力突破1TFLOPS，同时在空闲状态下的功耗控制在10瓦以内，展现出优异的能效比。

在AI推理任务中，这套系统同样表现强劲。运行Llama 3.2 3B模型时，单机每秒可处理154.6个token；面对更复杂的Llama 3.1 70B模型，仍能维持每秒14.1个token的输出速度，两项成绩均领先同类配置。尤其在挑战超大规模模型DeepSeek R1 671B时，其他平台因内存限制无法完成加载，而该集群凭借庞大的统一内存资源成功运行，凸显其在处理极端负载场景下的独特优势。

核心技术RDMA over Thunderbolt 5在实际应用中带来了显著性能提升。启用该功能后，内存访问延迟由传统TCP方案的约300微秒压缩至50微秒以下。在使用exo系统进行Qwen3 235B模型测试时，四机协同每秒可生成31.9个token，相较基于llama.cpp和TCP通信的方案提速超过一倍；运行DeepSeek V3.1模型时更是达到每秒32.5个token的处理速度。

尽管整体表现优异，但在高负载持续运行过程中，系统仍偶发崩溃现象，表明当前配置在稳定性方面尚有优化空间。此外，该集群的硬件总成本约为4万美元（折合人民币约28万元），相较于其他同类用途平台，建造成本相对较高。

侠游戏发布此文仅为了传递信息，不代表侠游戏网站认同其观点或证实其描述