0
| 本文作者: 陈淑瑜 | 2026-05-27 18:16 | 专题:CVPR 计算机视觉与模式识别会议 |
原文链接:https://mp.weixin.qq.com/s/AbtZYKAhP5KEaChBnLIV7A
近日,由InTimeLab、腾讯、南京理工大学合作完成的研究成果《Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training》被 CVPR 2026 主会接收。论文聚焦"如何让端到端文档解析模型在真实随拍场景下保持鲁棒性"这一核心问题,提出了端到端文档解析模型 DocHumming,通过数据-训练协同设计,以仅 1B 参数的规模在标准数字文档和真实随拍文档上同时建立了全新的 SOTA。同时,论文构建并开源了首个真实场景文档解析基准 Wild-OmniDocBench。
文档解析将非结构化文档图像转化为结构化输出,已随着多模态大语言模型(MLLM)的进步取得了显著发展。然而,当面对真实世界中用手机随手拍摄的文档时,现有方法的性能出现了显著退化。

扫描/数字文档 vs 真实随拍文档:左侧的标准文档可被模块化管线和端到端方法正确解析,而右侧真实随拍文档引入了透视变形、光照不均、阴影遮挡等退化,导致模块化管线出现布局分析错误、元素缺失,端到端方法产生重复内容。
现有方法面临的核心挑战:
模块化管线(Modular Pipeline)。
端到端方法(End-to-End)。
*DocHumming 正是通过数据-训练协同设计来系统性解决这两大瓶颈。*
为解决全页级端到端训练数据稀缺的瓶颈,论文提出了一套系统化、可扩展的合成数据管线。

Realistic Scene Synthesis 概览:左侧为原子元素库(9M 元素)和布局模板库(576K 模板);右侧为合成流水线——将采样元素组合到模板中,施加空间/结构约束生成页级标注,再通过拍摄感知增强模拟真实世界图像。
该管线包含三个关键模块:
元素仓库(Element Repository)。
布局模板库(Layout Library)。
拍摄感知增强(Data Augmentation)。
最终产出 DocMix-3M——约 300 万高质量合成文档,其中约 20% 经增强模拟随拍条件。
为解决端到端模型在长序列全页解析中的结构崩溃问题,论文设计了两阶段渐进式训练策略:
Stage 1:Short-to-long Training(短到长渐进训练)。
Stage 2:Parsing Token Preference(结构 token 偏好优化)。
现有基准(如 OmniDocBench)仅评估扫描/数字文档,缺少真实随拍场景的退化挑战。论文构建了 Wild-OmniDocBench——源自真实世界拍摄的文档解析基准。

Wild-OmniDocBench 的采集流程:对 OmniDocBench 中的原始文档进行真实场景下的手动拍摄(多角度、多设备、多环境),引入自然退化的同时保留精确的 Ground Truth 标注。
标准文档评估(OmniDocBench)。 DocHumming 以仅 1B 参数在所有指标上全面超越现有方法:

Table 1:各类 OCR 和 VLM 系统在文档理解基准上的对比。DocHumming(1B)在 Overall、Text、Formula、Table、Reading Order 五个维度上均取得最优表现,超越了 GPT-4o、Gemini-2.5 Pro、InternVL3 等通用大模型以及 PaddleOCR-VL、MinerU2.5 等专用方案。
多语言评估(XFUND)。 DocHumming 在德语、意大利语、日语、西班牙语、葡萄牙语、法语六种语言上均取得最优表现。

Table 2:XFUND 多语言性能对比。受益于 DocMix-3M 中的多语言监督,DocHumming 在所有六种语言上均超越 Gemini-2.5 Pro、GPT-4o 等方法。
真实随拍评估(Wild-OmniDocBench)。 关键发现:所有模型从标准文档到真实随拍文档都出现了性能退化,但 DocHumming 退化幅度最小(仅 -6.72),远优于模块化管线的 -19.76 和其他端到端方法的 -10.40。

Table 3:Wild-OmniDocBench 上的性能对比。DocHumming 在真实随拍场景下保持最高精度(Overall 87.03),退化幅度远小于其他方法。
消融实验。 验证了核心组件的有效性:

Table 4:训练策略消融——Realistic Scene Synthesis(RSS)和 Document-Aware Training Recipe(DATR)的每个组件都对最终性能有正向贡献。

Table 5:数据规模消融——DocMix-3M 是最优配比,进一步增加到 4M 后在 Wild 场景出现轻微过拟合。
DocHumming 的核心洞察是:要实现鲁棒的真实场景文档解析,仅靠模型规模的扩大远远不够——需要同时解决"缺乏大规模全页级训练数据"和"缺乏结构感知训练策略"两大根本瓶颈。 通过数据合成与训练策略的协同设计,仅 1B 参数的端到端模型便能在标准文档和真实随拍文档上同时超越百倍参数的通用大模型。
Wild-OmniDocBench已开源:
https://github.com/VirtualLUOUCAS/Wild_OmniDocBench
题目:
作者:
单位:
arXiv:
雷峰网版权文章,未经授权禁止转载。详情见转载须知。