当前位置: 首页 > news >正文

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理

当“8000 行代码手搓 ChatGPT”的热度还未褪去,大模型领域又迎来新惊喜——DeepSeek 团队于 10 月 20 日开源的DeepSeek-OCR,以“上下文光学压缩”为核心突破,重新定义了 OCR(光学字符识别)的效率边界。这款仅 30 亿参数量的模型,不仅能以 100 个视觉 token 超越传统模型 256 个 token 的性能,更在单张 A100-40G 显卡上实现每日 20 万页文档处理能力,为长文本压缩与大模型效率优化提供了全新思路。
image.png
论文标题​:DeepSeek-OCR:ContextsOpticalCompression

项目地址​:https://github.com/deepseek-ai/DeepSeek-OCR

论文地址​:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

HuggingFace​:https://huggingface.co/deepseek-ai/DeepSeek-OCR

👉Lab4AI 阅读地址:文末点击阅读原文,直达官网

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=827fb25d4535401c8c031d6d58265723

DeepSeek-OCR 的核心创新在于利用视觉模态作为文本信息的高效压缩媒介。研究表明,一张​包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富信息​,这意味着通过视觉 Token 进行光学压缩可以实现极高的压缩率。
image.png

其核心表现可概括为两组关键数据:

  • 压缩比与精度的平衡:当文本 token 数量是视觉 token 的 10 倍以内(即压缩比 <10×)时,OCR 解码精度高达 97%;即便压缩比提升至 20×,精度仍能维持在 60% 左右,远超行业同类模型的衰减速度。
  • 极致的 token效率:在 OmniDocBench 基准测试中,它仅用 100 个视觉 token 就超越了需 256 个 token 的 GOT-OCR2.0;面对 MinerU2.0 平均每页 6000+token 的消耗,它用不到 800 个 token 就能实现更优性能——相当于将文本处理的“token 成本”降低了 7-20 倍。
    这种突破的价值不仅在于 OCR 本身:对于受限于“长上下文处理能力”的大模型而言,DeepSeek-OCR 提供了一种新解法——将超长文本转化为视觉图像后压缩输入,可大幅减少 LLM 的 token 消耗,为处理百万字级文档、历史上下文记忆等场景打开了通道。

DeepEncoder:编码器 +MoE 解码器

为实现“高压缩比、低资源消耗”的目标,DeepSeek-OCR 采用了“DeepEncoder(编码器)+DeepSeek3B-MoE(解码器)”的端到端架构,两者各司其职又高度协同。

1. DeepEncoder

作为模型的“压缩核心”,DeepEncoder 需同时满足“高分辨率处理、低激活开销、少 token 输出”三大需求,其架构设计暗藏巧思:

  • 双组件串联:由 8000 万参数的SAM-base(视觉感知)和 3 亿参数的CLIP-large(视觉知识)串联而成。SAM-base 用“窗口注意力”处理高分辨率图像细节,CLIP-large 用“全局注意力”提取语义关联,兼顾精度与全局理解。
  • 16 倍 token 压缩:在双组件之间,通过2 层卷积模块对视觉 token 进行 16 倍下采样。例如,1024×1024 的图像先被划分为 4096 个 patchtoken,经压缩后仅保留 256 个有效 token,既控制了内存消耗,又不丢失关键信息。
  • 多分辨率适配:
    支持 Tiny(512×512)、Small(640×640)、Base(1024×1024)、Large(1280×1280)四种原生分辨率。还能通过“Gundam 模式”实现超高分辨率输入(如报纸图像)的瓦片化处理,单个模型即可覆盖从手机截图到大幅文档的全场景需求。

2. DeepSeek3B-MoE

解码器采用混合专家(MoE)架构,在“性能与效率”间找到了平衡点:

  • 参数激活策略:虽然总参数量为 3B,但推理时仅激活 64 个“路由专家”中的 6 个,外加 2 个“共享专家”,实际参与计算的参数仅 5.7 亿——相当于用“500M 模型的资源消耗”,获得了 3B 模型的表达能力。
  • 快速文本重建:从 DeepEncoder 输出的压缩视觉 token 中,解码器能精准重建原始文本,甚至支持 markdown 格式转换、图表结构化提取等复杂任务,无需额外的后处理模块。

性能表现

实验数据令人印象深刻:当文本 Token 数量在视觉 Token 的 10 倍以内(压缩率 <10×)时,模型的解码精度可达 97%;即使在压缩率达到 20× 的情况下,OCR 准确率仍保持在约 60%。
image.png
在实际应用层面,DeepSeek-OCR 展现出惊人效率:在 OmniDocBench 基准测试中,仅使用100 个视觉 Token 就超过了 GOT-OCR2.0(每页 256 个 Token)的表现;使用不到 800 个视觉 Token 就优于 MinerU2.0(平均每页超过 6000 个 Token)。
image.png

大模型实验室 Lab4AI

值得一提的是,大模型技术社区「大模型实验室 Lab4AI」已经第一时间上架了DeepSeek-OCR 论文及相关技术资料。该社区的技术团队正在积极复现论文中的创新方法,验证其在实际场景中的表现。

大模型实验室作为专注于 AI 前沿技术的内容社区,将持续跟踪 DeepSeek-OCR 的最新进展,并分享更多实践案例和技术分析。欢迎各位开发者关注社区动态,共同探索这一创新技术的更多应用可能。
image.png

http://www.hskmm.com/?act=detail&tid=36454

相关文章:

  • MATLAB 的无人机 PID 控制及智能 PID 控制器设计的仿真
  • 2025年口碑好的直角支架铝型材深加工,工业铝型材深加工工厂-江苏龙新铝业
  • 2025 年最新工矿灯生产厂家口碑推荐榜:精选 LED/防爆/高光效等多类型产品,助力企业选出实力与品质兼具的照明品牌
  • 2025年10月胰腺癌治疗医生对比榜:五名专家深度解析
  • 2025年10月胰腺癌治疗医生榜单:五强排名与实用决策指南
  • FreeSql 迁移表结构 (非严谨版)
  • 【CTF作业记录】
  • 2025年康明斯厂家权威推荐榜单:覆盖发电机组、发动机及配件全系列产品,技术实力与售后服务深度解析
  • 2025年发电机厂家权威推荐榜:柴油发电机组/康明斯/玉柴/高压/大功率发电机,专业实力与市场口碑深度解析
  • image watch自定义
  • 基于混沌单纯形法改进的布谷鸟搜索算法
  • 中国开发者如何选择最适合的代码管理工具?四大平台横向评测
  • 2025年散热模组厂家推荐排行榜:CPU散热模组,显卡散热模组,服务器散热模组,工业设备散热模组公司推荐
  • Cinder-创造性编程入门指南-全-
  • 2025 年防腐桥架厂家最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 2025年法兰保护罩厂家推荐排行榜,阀门保温罩,法兰罩,法兰防溅罩,法兰保护套,专业防护与定制服务深度解析
  • 2025年10月抗老面霜评测榜:紧致提亮真实数据排行
  • 软件工程第二次团队作业——构建智能体
  • 2025年10月抗老面霜对比榜:五款热门单品数据化排名
  • 2025年小型低温冷冻机厂家权威推荐榜:工业风冷/一体式螺杆低温/工业低温冷冻设备专业选购指南
  • 2025年10月企业数字化转型服务商评测榜:精选五强排名
  • 2025年不锈钢水箱厂家权威推荐榜:方形/圆形/消防/生活/保温/承压/装配式/焊接水箱,专业制造与耐用品质全面解析
  • 【转】广义积分——极限审敛法(六年考四次!)
  • 2025年10月企业数字化转型服务商推荐榜:五强对比评测
  • 数据挖掘之人工智能与机器学习
  • 产品经理必看!在线白板如何嵌入产品经理工作流
  • 2025 年窗帘厂家最新推荐权威排行榜:精准剖析各品牌核心优势,涵盖定制/智能/遮光/母婴/办公室等多类型窗帘选购指南
  • 2025年DevSecOps工具生态全景观察:从代码托管到安全左移的实践演进
  • 用AI帮你一天写完一个网站:流程解析
  • KO01创建内部订单