首页 > 人工智能 >小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

来源:ithome 2025-08-06 19:00:11
感谢xiayx网友 软媒用户1392612 的线索投递!

xiayx 8月6日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 DeepSeek V3 LLM 构建。

小红书 hi lab 表示,dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。

NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练,提升 VLM 模型的感知能力(例如各类 OCR 能力)。

多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格 / Chart / 文档 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;

通过大规模预训练与精细化后训练调优,dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

在主要的视觉评测集上,dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。

在典型的文本推理任务(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表现大致相当于 DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在 GPQA 等更多样的推理任务上仍存在差距。

总体来看,dots.vlm1 在视觉多模态能力方面已接近 SOTA 水平,在文本推理方面达到了主流模型的性能。然而,在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。

复杂图表推理样例:

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

STEM 解题样例:

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

长尾识别解题样例:

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

视觉推理样例:

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

xiayx附 dots.vlm1 开源地址:

https://github.com/rednote-hilab/dots.vlm1

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。