MinerU2.5 正式发布 🎉,这个参数规模仅 1.2B 的视觉-语言模型,通过创新的解耦架构和数据引擎,实现 SOTA 准确率,同时显著降低计算开销!!团队也公布了技术报告,一起看看它的模型组成、训练细节和实战表现 👇
1. 背景与挑战
文档不同于自然图像,具有高分辨率(常超数千像素)、内容密集(文本密集)和结构复杂(多列布局、跨页元素)等特性。这些导致传统 OCR 系统面临三大难题:
· 分辨率需求:需原生分辨率处理以捕捉细粒度细节,但全图编码产生 O(N²) 复杂度的高 token 冗余。
· 效率与鲁棒性:长文档易引发 VLM 幻觉,参数效率低,处理慢。
· 数据瓶颈:现有数据集多样性不足、样本不均衡、标注质量参差。
现有方法分两类:
· 传统管道式(e.g., Marker, MinerU):模块化分解(布局检测→阅读顺序→内容识别),可解释但易误差传播,维护复杂。
· 端到端VLM(e.g., GOT, Qwen2.5-VL):语义强但高分辨率下效率低,易在长文档中幻觉。
MinerU2.5 针对这些痛点,提出解耦策略,结合管道效率与 VLM 准确性。
2. 核心方法
MinerU2.5 的核心是粗到细的两阶段解析策略,将全局布局分析与局部内容识别解耦,避免全图高成本编码。模型架构基于 Qwen2-VL 框架,包括:
· 视觉编码器:675M 参数的 NaViT(Native-Resolution ViT),支持动态分辨率和 2D-RoPE 位置编码,适应裁剪区域的任意宽高比。
· 语言解码器:0.5B 参数的 Qwen2-Instruct,替换为 M-RoPE 以提升多分辨率泛化。
· Patch Merger:像素重排(pixel-unshuffle)合并相邻视觉t oken,平衡效率与性能。
两阶段解析流程:
· 阶段I:布局分析 - 在下采样图像(e.g., 1036px)上快速全局检测元素边界、类型(文本/表格/公式/图像)和阅读顺序。输出结构化提示(如 <|box_start|> 坐标 <|ref_start|> 类型 <|ref_end|>),计算成本低。
· 阶段II:内容识别 - 基于布局结果,从原高分辨率图像裁剪关键区域(e.g., 1715px×154px),并行解码文本、公式和表格。使用专用提示,保留细粒细节,避免冗余。
训练配方(三阶段):
· 阶段0:模态对齐 - 使用图像-文本对预训练视觉-语言融合。
· 阶段1:文档解析预训练 - 大规模语料覆盖布局、OCR、公式/表格识别。
· 阶段2:微调 - 任务特定优化,融入数据增强(如旋转、噪声)提升鲁棒性。
数据引擎(创新亮点):闭环系统生成多样化语料。
· 工作流: curation(收集 PDF /扫描件)→预训练/微调数据集构建→任务重构(布局/公式/表格增强标注)。
· 关键技术:迭代挖掘(inference consistency),通过模型自一致性过滤高质量样本;针对公式(混合中英)、表格(无边框/旋转)生成合成数据。
· 规模:数百万级语料,确保覆盖学术/金融/教科书等文档类型。
部署上,支持 Markdown 输出,便于下游集成;推理效率比端到端 VLM 高10倍。
3. 实验评测结果
在全文档解析基准 OmniDocBench 上,MinerU2.5 刷新记录:
· 整体性能:1-Edit 得分 95 ,超越通用 VLM(如 Gemini-2.5 Pro 90 、Qwen2.5-VL-72B 92 )和领域模型(如 MonkeyOCR 88 、PP-StructureV3 85 )。
· 元素级:文本块98%、公式97%、表格96%、阅读顺序95%;TEDS/CDM 指标领先5-10%。
· 子任务:布局分析(DocLayNet mAP 85 )、表格(PubTabNet TEDS 95 )、公式(Marmot 准确率92 ),均 SOTA。
· 效率:1.2B 参数下,处理高分辨率文档只需秒级,远低于 72B 模型。
定性示例展示其在复杂 PDF(如多列学术文、无边框表)上的优势,优于前版 MinerU 和竞品。
4. 意义与展望
MinerU2.5 以轻量设计桥接效率与准确,特别适用于高密度文档场景,推动 OCR 向实用化演进。其解耦范式可扩展至其他多模态任务,数据引擎则为数据稀缺领域提供范例。未来可探索更强 LM 集成或实时部署。开源代码和模型便于复现与迭代。