在iPhone 17 Pro上运行4000亿参数大模型,技术突破但速度缓慢 通常,运行拥有4000亿参数的大型语言模型需要配备大容量内存的高性能硬件,即使是量化压缩版本也至少要求200GB内存。以此标准衡量,iPhone 17 Pro并非运行此类巨型模型的理想平台。但近期一项突破表明,已有人成功在这
通常,运行拥有4000亿参数的大型语言模型需要配备大容量内存的高性能硬件,即使是量化压缩版本也至少要求200GB内存。以此标准衡量,iPhone 17 Pro并非运行此类巨型模型的理想平台。但近期一项突破表明,已有人成功在这款旗舰手机上做到了这一点,这离不开一系列巧妙的技术方案。

长期稳定更新的攒劲资源: >>>点此立即查看<<<

开源项目FlashMoE最近成功在iPhone 17 Pro上运行了4000亿参数模型。根据用户@anemll的演示,手机虽然能运行这一高算力需求模型,但也暴露出显著性能瓶颈:其Token生成速度仅为0.6个/秒,相当于每1.5至2秒生成一个单词,对用户耐心是一大考验。
无论如何,能够在智能手机上运行4000亿参数大语言模型本身具有里程碑意义。这一成果清晰表明,通过持续优化,未来在手机端本地运行大型语言模型具备可行性。
iPhone 17 Pro仅配备12GB LPDDR5X内存,无法完整载入大模型。FlashMoE通过两项关键技术突破限制:一是利用设备固态硬盘(SSD)直接向GPU流式传输数据;二是采用混合专家模型(MoE)架构,每次生成单词时仅调用4000亿参数中的一小部分,而非全部参数。
在手机本地运行大语言模型的显著优势包括完全保护用户隐私,且无需联网即可获得回复。但代价是iPhone 17 Pro的电池消耗会非常明显。开发者通常使用量化压缩版模型,但即便是量化后的4000亿参数模型也至少需要200GB内存,这原本是iPhone无法克服的障碍。
此次演示证明,若能接受每秒0.6个Token的生成速度,智能手机确实可以运行4000亿参数大模型。但需要明确,“能够运行”与“能够流畅、可用地使用”仍是两个不同概念。技术进步始于边界突破,而走向实用化仍需更长的路要走。
侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述