
2025年12月25日,资深工程师Jeff Geerling完成了一项引人注目的技术实践,成功将四台搭载M3 Ultra芯片的Mac Studio整合为一台高性能AI计算集群,实现高达1.5TB的统一内存配置。此次构建依托于最新版本操作系统中一项关键功能——通过Thunderbolt 5接口实现的远程直接内存访问(RDMA),使得各设备之间能够绕过CPU直接读取彼此内存,显著提升了数据交互效率。
该集群在多项性能测试中表现出色。Geekbench 6多核测试结果显示,其整体算力超越了多款主流高性能桌面设备,双精度浮点运算能力突破1TFLOPS,同时在空闲状态下的功耗控制在10瓦以内,展现出优异的能效比。
在AI推理任务中,这套系统同样表现强劲。运行Llama 3.2 3B模型时,单机每秒可处理154.6个token;面对更复杂的Llama 3.1 70B模型,仍能维持每秒14.1个token的输出速度,两项成绩均领先同类配置。尤其在挑战超大规模模型DeepSeek R1 671B时,其他平台因内存限制无法完成加载,而该集群凭借庞大的统一内存资源成功运行,凸显其在处理极端负载场景下的独特优势。
核心技术RDMA over Thunderbolt 5在实际应用中带来了显著性能提升。启用该功能后,内存访问延迟由传统TCP方案的约300微秒压缩至50微秒以下。在使用exo系统进行Qwen3 235B模型测试时,四机协同每秒可生成31.9个token,相较基于llama.cpp和TCP通信的方案提速超过一倍;运行DeepSeek V3.1模型时更是达到每秒32.5个token的处理速度。
尽管整体表现优异,但在高负载持续运行过程中,系统仍偶发崩溃现象,表明当前配置在稳定性方面尚有优化空间。此外,该集群的硬件总成本约为4万美元(折合人民币约28万元),相较于其他同类用途平台,建造成本相对较高。
侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述