当前位置：首页 > news >正文

【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting - 实践

news 2025/10/5 19:35:21

【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting - 实践

Paper：https://arxiv.org/abs/2505.14059
Source code: https://github.com/bytedance/Dolphin
作者机构：字节跳动

背景

模型训练

训练数据

收集了超过3kw覆盖page-level,element-level的样本。可参见如下表格：

其在Mixed Documents中进行了具有阅读顺序的版面分析标注，即有元素类型、bbox以及阅读顺序。其它的资料主要是用于构建元素级别的提取训练语料。更多训练数据形式可参见原论文。

实验

模型层面：

视觉encoder使用的是Swin Transformer，window size:7, hierarchical structure([2, 2, 14, 2] encoder layers with [4, 8, 16, 32] attention heads)，tips: 常见的通用VLM的视觉编码器通常应用的是基于vit的处理，后面对比一下其与Swin Transformer的差异;
decoder使用的是mBart，囊括了10个hidden dimension的Transformer layer;
使用Donut的预训练权重进行初始化。

训练：

优化器AdamW；
Learning rate 5e-5 cosine decay schedule;
机器：40张A100;
2 epochs with a batch size of 16 per device (gradient accumulation)
训练Loss：cross-entripy loss。

其他：

图片进行归一化操作，将图片保留纵横比(aspect ratio)，将最长的边放大或缩小到896个pixels，然后进一步padding以达到896x896 pixels 的尺寸。

总结

从文中可以看出，尽管Dolphin表现出了出色的性能，但仍有一些限制需要进一步改进。首先，Dolphin主要承受标准水平文本布局，对于垂直文本如古代手稿等的支持有限。其次，虽然Dolphin能够实用地处理中英双语文档，但其多语言能力仍需扩展。此外，哪怕Dolphin依据并行元素解析完成了效率提升，但在文本行和表格单元格的并行处理方面仍有优化空间。最后，Dolphin的手写识别能力还应该进一步增强。
此外，由于文档的多样性和复杂性，还需要在工业界进行考验。项目也给出了在线试用的地址：http://115.190.42.15:8888/dolphin/。

对于类似的端到端的文档智能多模态模型还有如：GOT、SmolDocling等专门处理文档的多模态(大)语言模型。这些模型和方式为端到端的文档智能智能提供了很多解除思路，为后续的发展奠定了基础，但个人试用起来，感觉整体效果还需有进一步提升。

查看全文

http://www.hskmm.com/?act=detail&tid=25076

2025 --【J+S 二十连测】-- 第二套总结

2025 蒸发器厂家最新企业品牌推荐排行榜，江苏纵横携手知名品牌，彰显蒸发器公司行业影响力

题解：Luogu P11976 [KTSC 2021] 通信网络 / communication

弦振动方程

理论构建尝试整理

2025聚合硫酸铁厂家最新企业品牌推荐排行榜，工业聚合硫酸铁，混凝剂聚合硫酸铁，固态聚合硫酸铁，粉末聚合硫酸铁，硫酸亚铁公司推荐！

2025成型机厂家最新企业品牌推荐排行榜，冷弯成型机，卷帘门成型机，卷闸门成型机，彩钢瓦成型机，货架成型机推荐！

2025 年 PP 管厂家最新推荐榜：甄选 pp 风管，PP 喷淋塔，pp 洗涤塔，pp 通风管道优质公司！

解密并下载受DRM保护的MPD（DASH流媒体）加密视频 - 教程

在PyCharm中运行 wandb.login()；

2025索道厂家最新企业品牌推荐排行榜，城市交通索道，旅游索道，滑雪索道，单人固定抱索器拖牵索道，固定抱索器吊篮式索道公司推荐

无向图三元环计数小记

Python语法基础篇（含有类型转换、拷贝、可变对象/不可变对象，函数，拆包，异常，模块，闭包，装饰器）

2025 年探伤仪厂家最新企业品牌推荐排行榜，涡流探伤仪，超声波探伤仪，管材探伤仪，焊缝探伤仪，无损探伤仪推荐这十家公司！

2025 年建筑工程施工总包最新推荐排行榜，以严格质量管控彰显行业实力推荐这十家公司！

与斐波那契数列相关的对换题目 CF553B Kyoya and Permutation

2025年微信小程序开发：AR/VR与电商的最新案例 - 指南

10.5

在wpf .net 8项目中使用materialDesign 4 以上版本的的注意事项

学习STC51单片机26（芯片为STC89C52RCRC） - 实践

洛谷P14120 题解 - lemon

cf41d

【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting - 实践

【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting - 实践

背景

业务场景

相关工作

方法论

Page-level layout analysis

Element-level Content Parsing

效果比对

模型训练

训练数据

实验

总结

相关文章：