首页 > 人工智能 >DeepSeek 团队开源新模型 DeepSeek-OCR:少量视觉 token 完成海量文本压缩

DeepSeek 团队开源新模型 DeepSeek-OCR:少量视觉 token 完成海量文本压缩

来源:ithome 2025-10-21 14:18:11
感谢xiayx网友 软媒用户1392612 的线索投递!

xiayx 10月20日消息,今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。

DeepSeek 团队开源新模型 DeepSeek-OCR:少量视觉 token 完成海量文本压缩

长期稳定更新的攒劲资源: >>>点此立即查看<<<

根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。DeepEncoder 专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比,以控制视觉 token 数量在可管理的范围内。实验显示,当文本 token 数量不超过视觉 token 的 10 倍(压缩比低于 10×)时,模型的 OCR 精度可达 97%;即便压缩比提高到 20×,准确率仍保持约 60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。DeepSeek-OCR 同时具备较高的实际应用价值。

在 OmniDocBench 测试中,DeepSeek-OCR 使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token),而使用不到 800 个视觉 token 便优于 MinerU2.0(平均每页超过 6000 个 token)。

在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

DeepSeek 团队开源新模型 DeepSeek-OCR:少量视觉 token 完成海量文本压缩

DeepSeek 团队开源新模型 DeepSeek-OCR:少量视觉 token 完成海量文本压缩

xiayx附有关页面如下:

GitHub:https://github.com/deepseek-ai/DeepSeek-OCR

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

热游推荐

更多
湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。