
1月21日,有开发者在GitHub平台上发现,DeepSeek近期更新了一批与FlashMLA相关的代码。在涉及的114个文件中,有28处提及一个此前未公开的“MODEL1”大模型标识符,引发技术社区关注。该标识符在代码中与已知的“V32”(即DeepSeek-V3.2)模型并列出现,或被用于区分不同架构,显示出可能存在的新型模型开发迹象。
长期稳定更新的攒劲资源: >>>点此立即查看<<<
通过分析,“MODEL1”在多个关键技术层面表现出与现有模型的差异,尤其在键值缓存的布局结构、稀疏性处理机制以及对FP8数据格式的解码支持等方面呈现出不同的实现方式。这些变化暗示新模型可能在内存使用效率和计算性能方面进行了专门优化,旨在提升推理速度与资源利用率。
这一发现与近期行业内的预测相呼应。据多方信息显示,DeepSeek计划于今年2月中旬,即农历新年期间,发布新一代旗舰级人工智能模型DeepSeek V4。传闻称,该模型在代码生成与理解能力方面将实现显著突破,内部测试结果表明其表现有望超越当前主流同类产品。
此外,DeepSeek研究团队在过去一段时间内相继发布了两项关键技术成果:其一是提出一种名为“优化残差连接(mHC)”的新型训练方法,旨在提升模型训练稳定性与收敛效率;其二是引入“条件记忆”这一新架构范式,并开源了配套的记忆模块Engram。业界普遍推测,即将推出的V4模型或将整合上述研究成果,进一步增强长期上下文处理与复杂任务推理能力。
侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述