首页 > 人工智能 >商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5

商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5

来源:ithome 2025-11-11 00:00:13

xiayx 11月10日消息,商汤科技今日发布并开源 SenseNova-SI 系列模型。官方宣布,在多项权威评测的空间理解和推理任务上,SenseNova-SI 不仅大幅度领先同量级开源多模态大模型,还超越了 GPT-5 和 Gemini 2.5 Pro 等国际顶尖闭源模型的表现。同时,其在空间智能领域实现重要突破。

商汤科技表示,当前行业领先的大模型虽在知识、写作、推理、编程等方面展示了突出的性能,但普遍对空间结构的理解和推理存在很严重的短板,而这恰恰是具身智能体与世界交互所需要的关键基础能力。

长期稳定更新的攒劲资源: >>>点此立即查看<<<

这次开源的 SenseNova-SI 空间智能大模型系列包括 2B 和 8B 两个规格。官方提供的评测数据显示,SenseNova-SI 系列模型在空间智能多个基准测试(VSI、MMSI、MindCube、ViewSpatial)中表现突出。

商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5

其中 SenseNova-SI-8B 模型在四个基本评测中获得 60.99 的平均成绩,不仅大幅领先 Qwen3-VL-8B(40.16)、BAGEL-7B(35.01)等开源通用多模态模型,以及 SpatialMLLM(35.05)、ViLaSR-7B(36.41)等专门的空间智能模型,还以相对轻量的模型规格实现了对 GPT-5(49.68)、Gemini-2.5-Pro(48.81)等顶级闭源模型的超越。这里显著的性能提升反映了模型在空间智能上获得了质的突破,而不是简单的性能改善。

以下为 GPT-5 和 SenseNova-SI-8B 模型面对空间智能问题给出的答案对比。

商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5

如图,给出的立方体组合图形,要求选择正确俯视图。GPT-5 选择答案 D,SenseNova-SI-8B 选择答案 B,正确答案为 B。

商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5

假设我站在手持相机人的位置,并且面朝他现在面朝的方向,摩托车是位于我的左侧还是右侧?GPT-5 选择答案 A(左侧),SenseNova-SI-8B 选择答案 B,正确答案为 B(右侧)。(例题源自 SITE-Bench)

商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5

多车道道路场景,判断黄色汽车的后续动作(如直行、转向等)。GPT-5 选择答案 C(静止),SenseNova-SI-8B 选择答案(D),正确答案为 D(右转)。(例题源自 SITE-Bench)

商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5

同一户外场景,通过视角变化判断移动方向。GPT-5 选择答案 C,SenseNova-SI-8B 选择答案 D,正确答案为向左前方移动(选项 D)。(例题源自 MindCube)

商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5

同一室内空间,包含白板、椅子和沙发等,通过物体位置变化分析移动方向。GPT-5 选择答案 D,SenseNova-SI-8B 选择答案 A,正确答案为向左前方移动(选项 A)。(例题源自 MindCube)

商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5

从不同角度拍摄带黑色衣物的桌子,从正面视角(图 1)判断桌子右侧物体。GPT-5 选择答案 B,SenseNova-SI-8B 选择答案 C,正确答案为门(选项 C)。(例题源自 MindCube)

xiayx附 SenseNova-SI 开源地址:https://github.com/EvolvingLMMs-Lab/EASI

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

热游推荐

更多
湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。