CVPR 2026 | DocHumming：面向真实场景的端到端文档解析新范式

本文作者：陈淑瑜

2026-05-27 18:16

导语：论文聚焦"如何让端到端文档解析模型在真实随拍场景下保持鲁棒性"这一核心问题，提出了端到端文档解析模型 DocHumming

来源：公众号“InTimeLab”

原文链接：https://mp.weixin.qq.com/s/AbtZYKAhP5KEaChBnLIV7A

近日，由InTimeLab、腾讯、南京理工大学合作完成的研究成果《Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training》被 CVPR 2026 主会接收。论文聚焦"如何让端到端文档解析模型在真实随拍场景下保持鲁棒性"这一核心问题，提出了端到端文档解析模型 DocHumming，通过数据-训练协同设计，以仅 1B 参数的规模在标准数字文档和真实随拍文档上同时建立了全新的 SOTA。同时，论文构建并开源了首个真实场景文档解析基准 Wild-OmniDocBench。

文档解析将非结构化文档图像转化为结构化输出，已随着多模态大语言模型（MLLM）的进步取得了显著发展。然而，当面对真实世界中用手机随手拍摄的文档时，现有方法的性能出现了显著退化。

CVPR 2026 | DocHumming：面向真实场景的端到端文档解析新范式

扫描/数字文档 vs 真实随拍文档：左侧的标准文档可被模块化管线和端到端方法正确解析，而右侧真实随拍文档引入了透视变形、光照不均、阴影遮挡等退化，导致模块化管线出现布局分析错误、元素缺失，端到端方法产生重复内容。

现有方法面临的核心挑战：

模块化管线（Modular Pipeline）。
依赖精确的版面分析作为前置步骤，在随拍场景下布局检测失败将导致后续所有环节级联崩溃。
端到端方法（End-to-End）。
虽避免了版面分析依赖，但在全页级解析时普遍出现重复生成、幻觉内容和结构不一致等问题——根本原因在于缺乏大规模、高质量的全页级端到端解析训练数据以及缺少结构感知的训练策略。
*DocHumming 正是通过数据-训练协同设计来系统性解决这两大瓶颈。*

为解决全页级端到端训练数据稀缺的瓶颈，论文提出了一套系统化、可扩展的合成数据管线。

Realistic Scene Synthesis 概览：左侧为原子元素库（9M 元素）和布局模板库（576K 模板）；右侧为合成流水线——将采样元素组合到模板中，施加空间/结构约束生成页级标注，再通过拍摄感知增强模拟真实世界图像。

该管线包含三个关键模块：

元素仓库（Element Repository）。
整合表格识别、公式解析、段落理解等多来源数据集，经格式统一后构成约 900 万个标准化原子元素。利用 Qwen2.5-72B 进行标注改写和增强（如公式嵌入表格、多语言段落生成），进一步提升多样性。
布局模板库（Layout Library）。
收集公开布局数据集并从网络挖掘真实版面，经布局检测器筛选后构建超过 57.6 万种带阅读序标注的布局模式。
拍摄感知增强（Data Augmentation）。
模拟透视变形、弯曲褶皱、光照变化、相机旋转和真实背景叠加等自然退化，缩小合成数据与真实随拍文档的域差距。

最终产出 DocMix-3M——约 300 万高质量合成文档，其中约 20% 经增强模拟随拍条件。

为解决端到端模型在长序列全页解析中的结构崩溃问题，论文设计了两阶段渐进式训练策略：

Stage 1：Short-to-long Training（短到长渐进训练）。
先在元素级短序列（表格、公式、段落）上训练，建立稳定的元素解析能力；随后逐步过渡到全页级长序列训练。
Stage 2：Parsing Token Preference（结构 token 偏好优化）。
对结构标记（如 '<tr>'、'<td>'）施加更高的损失权重，使模型在训练时更加关注结构正确性，有效抑制重复生成和结构混乱。

现有基准（如 OmniDocBench）仅评估扫描/数字文档，缺少真实随拍场景的退化挑战。论文构建了 Wild-OmniDocBench——源自真实世界拍摄的文档解析基准。

Wild-OmniDocBench 的采集流程：对 OmniDocBench 中的原始文档进行真实场景下的手动拍摄（多角度、多设备、多环境），引入自然退化的同时保留精确的 Ground Truth 标注。

标准文档评估（OmniDocBench）。 DocHumming 以仅 1B 参数在所有指标上全面超越现有方法：

Table 1：各类 OCR 和 VLM 系统在文档理解基准上的对比。DocHumming（1B）在 Overall、Text、Formula、Table、Reading Order 五个维度上均取得最优表现，超越了 GPT-4o、Gemini-2.5 Pro、InternVL3 等通用大模型以及 PaddleOCR-VL、MinerU2.5 等专用方案。

多语言评估（XFUND）。 DocHumming 在德语、意大利语、日语、西班牙语、葡萄牙语、法语六种语言上均取得最优表现。

Table 2：XFUND 多语言性能对比。受益于 DocMix-3M 中的多语言监督，DocHumming 在所有六种语言上均超越 Gemini-2.5 Pro、GPT-4o 等方法。

真实随拍评估（Wild-OmniDocBench）。 关键发现：所有模型从标准文档到真实随拍文档都出现了性能退化，但 DocHumming 退化幅度最小（仅 -6.72），远优于模块化管线的 -19.76 和其他端到端方法的 -10.40。

Table 3：Wild-OmniDocBench 上的性能对比。DocHumming 在真实随拍场景下保持最高精度（Overall 87.03），退化幅度远小于其他方法。

消融实验。 验证了核心组件的有效性：

Table 4：训练策略消融——Realistic Scene Synthesis（RSS）和 Document-Aware Training Recipe（DATR）的每个组件都对最终性能有正向贡献。

Table 5：数据规模消融——DocMix-3M 是最优配比，进一步增加到 4M 后在 Wild 场景出现轻微过拟合。

DocHumming 的核心洞察是：要实现鲁棒的真实场景文档解析，仅靠模型规模的扩大远远不够——需要同时解决"缺乏大规模全页级训练数据"和"缺乏结构感知训练策略"两大根本瓶颈。通过数据合成与训练策略的协同设计，仅 1B 参数的端到端模型便能在标准文档和真实随拍文档上同时超越百倍参数的通用大模型。

Wild-OmniDocBench已开源：

https://github.com/VirtualLUOUCAS/Wild_OmniDocBench

题目：
Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training
作者：
Gengluo Li, Pengyuan Lyu, Chengquan Zhang, Huawen Shen, Liang Wu, Xingyu Wan, Gangyan Zeng, Han Hu, Can Ma, Yu Zhou
单位：
InTimeLab · 腾讯 · 南京理工大学
arXiv：
https://arxiv.org/abs/2603.23885

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章