当前位置: 首页 > news >正文

[PaperReading] DeepSeek-OCR: Contexts Optical Compression

目录
  • DeepSeek-OCR: Contexts Optical Compression
  • TL;DR
  • Method
    • DeepEncoder
    • DeepDecoder
  • Data
  • Experiment
  • 总结与思考
  • 相关链接

DeepSeek-OCR: Contexts Optical Compression

link
时间:25.10.20
单位:DeepSeek
作者相关工作:Haoran Wei,加入DeepSeek之前在旷视,之前做过Vary。
项目主页:
https://github.com/deepseek-ai/DeepSeek-OCR

TL;DR

探索的任务:通过2D OCR能否压缩long context信息。
模型架构:核心模块包括DeepEncoder与DeepSeek3B-MoE-A570M的Decoder。

  • DeepEncoder:将高分辨率的图片压缩为少量视觉token。
  • DeepSeek Decoder:输入image tokens + prompts,输出结果
    意义:该工作对于long context压缩 以及 记忆遗忘机制 都有巨大的潜力。

Method

image

DeepEncoder

SAM(80M):输入图像首先由SAM-base进行处理,该模型基于窗口注意力机制,对图像进行细致的视觉特征提取(而非直接出MASK)。
Conv: 两步Conv下采样,将视觉特征编码经过16x下采样进行压缩
CLIP(300M):Image Encoder部分,再将patch embedding层移除

Q:什么是压缩率?
压缩率 = 原始文本token数量 / 使用的视觉token数量​

Q:压缩率高有什么好处?
DeepSeekOCR提供一种新文本表示方式,光学编码:将原始文本内容渲染成图像格式。压缩率高,意味着光学编码后,DeepSeek-Encoder编码出的视觉token信息密度比text token还高。在实际应用中,可能不需要专门光学编码,可以是:

  • 文档扫描件或截图
  • 程序化生成的文本图像
  • 现有的文档图像资料

DeepDecoder

  • 采用混合专家模型(MoE)设计,共64个专家
  • 推理时激活6个路由专家+2个共享专家(约570M激活参数)
  • 在保持3B模型表达能力的同时,享受500M小模型的推理效率

Data

多批次数据构成
image

Experiment

不同压缩率对应的实验结果
image

与多阶段OCR、E2E OCR方法的对比
image

总结与思考

10倍压缩率情况下能达到97%的识别成功率,说明至少有97%的text信息已经被编码进来了,有10倍的压缩率,那证明比直接使用text作为输入性价比更高,在long context的场景下还是非常有价值的。

相关链接

https://www.zhihu.com/search?type=content&q=DeepSeek-OCR%3A Contexts Optical Compression

http://www.hskmm.com/?act=detail&tid=36136

相关文章:

  • Win10安装WindowsCamera相机
  • 简易的本地部署OI-Wiki方法 for CCSP
  • Say 题选记 (10.19 - 10.25)
  • 宝塔面板
  • React Native 启动流程 (Android版)
  • 以TrustedInstaller/System用户运行软件
  • 10月21号
  • 机器学习基础 -- 线性回归模型
  • 泰勒展开
  • MySQL 创建和授权用户
  • 因果机器学习算法新进展解析
  • 软件工程作业三
  • CF2127 Atto Round 1 (Codeforces Round 1041, Div. 1 + Div. 2) 游记(VP)
  • 一键生成爆款文章,并自动发布!
  • 机器学习到深度学习发展历程
  • Java数据类型
  • [CF 516 E] Drazil and His Happy Friends
  • NVIDIA Triton服务器漏洞危机:攻击者可远程执行代码,AI模型最高权限告急
  • 2025-10-21
  • 个人骗分导论
  • Java三大特性
  • 高级程序设计第二次作业
  • 10月21日日记
  • home-assistant.-Adding integrations
  • Windows系统内存占用过高,且任务管理器找不到对应进程
  • NOIP 二十五
  • 理想婚姻
  • equal和hashcode
  • Ancestral Problem 题解
  • AWS IAM角色最佳实践:构建云安全的核心防线