0
| 本文作者: 郑佳美 | 2025-12-17 11:09 |
在大模型迈向通用视觉智能的浪潮中,单一任务或单一模态的方法正面临瓶颈。现实世界的视觉理解系统不仅要回答问题,还要理解动态视频、定位事件、跟踪目标、生成描述乃至进行复杂的逻辑推理,这要求模型具备综合的跨任务和跨模态能力。
然而,现有方法多数依赖任务专化模型,难以实现不同视觉任务间的协同与知识共享,这不仅导致系统复杂度高,也限制了模型在综合推理场景中的表现。
在这样的行业背景下, 香港中文大学多媒体实验室(MMLab)与美团的联合研究团队提出了 OneThinker 多模态统一推理模型,并在论文中系统性地给出了答案。
不同于为每个视觉任务单独设计模型,OneThinker 选择了一条更激进的路线:将图像与视频中的问答、描述、时空定位、跟踪和分割等任务统一抽象为“先推理、后作答”的通用形式,并通过多任务强化学习对模型进行整体优化。
这项工作不仅关注模型在单一基准上的性能提升,更试图验证一个更根本的问题,“是否可以通过统一的推理机制,让一个模型同时具备多种视觉理解与推理能力,而不牺牲任何单项任务的表现?”
围绕这一问题,研究团队构建了大规模多任务数据集,引入改进的强化学习算法,并在图像与视频两种模态上进行了系统而全面的实验评测,为通用视觉推理模型的设计提供了具有参考价值的实证结果。

论文地址:https://arxiv.org/pdf/2512.03043v2
为验证 OneThinker 模型在多模态、多任务场景下的有效性,研究团队在图像与视频两种模态上,对多类典型视觉理解任务进行了系统评测。实验内容涵盖问答、描述、定位、跟踪和分割等多个方向,旨在全面评估模型在不同任务类型和不同模态下的整体表现。
从整体实验结果来看,OneThinker 在绝大多数视觉理解任务中均优于基础模型以及多种现有开源方法,表现出较为稳定的性能优势。这一结果表明,通过统一建模并引入多任务强化学习机制,模型能够在不牺牲单任务性能的前提下,有效提升其综合推理能力和跨任务适应性。

在图像问答任务中,OneThinker 需要同时处理视觉内容理解、数学推理、逻辑推断以及跨模态信息融合等多种复杂能力。实验结果显示,该模型在多项高难度图像问答任务中均取得了明显优于对比模型的表现,尤其在涉及数学推理、科学推理和多步骤逻辑推断的问题上优势更加突出。
上述结果表明,统一的推理框架不仅未削弱模型在复杂问答任务中的表现,反而通过多任务联合训练,使模型获得了更强的抽象推理能力和跨领域泛化能力。

在视频问答任务中,模型不仅需要理解单帧视觉信息,还需有效建模时间顺序、事件演变以及长程依赖关系。实验结果表明,OneThinker 在多项视频问答任务中整体性能优于专门针对视频推理设计的模型,尤其在长视频推理和视频数学推理等任务中表现更为突出。
这一结果说明,在统一训练框架下,OneThinker 成功学习到了稳定而有效的时间建模能力,从而能够在复杂视频场景中进行连续推理和事件级理解。

在图像和视频描述任务中,OneThinker 需要生成与视觉内容高度一致、语义连贯且信息完整的自然语言描述。实验结果表明,该模型在图像描述和视频描述任务中均取得了较为领先的性能,生成文本在准确性、完整性和语言质量等方面均有明显提升。
这进一步说明,推理能力的增强有助于模型更有效地组织和整合视觉信息,从而生成结构更加清晰、逻辑更加合理的描述文本。

在时间定位任务中,模型需要准确判断事件在视频中发生的起止时间;而在空间定位任务中,则需要精确预测目标在图像中的空间位置。实验结果显示,OneThinker 在这两类任务中均取得了显著性能提升,能够更准确地理解事件发生的时间范围以及目标的空间分布特征。

进一步地,在同时涉及时间与空间信息的联合定位任务中,OneThinker 同样表现出较强的综合建模能力,表明该模型能够在统一框架下同时处理“何时发生”和“发生在哪里”这两个关键问题。

在目标跟踪任务中,OneThinker 需要在视频序列中持续、稳定地定位同一目标。实验结果显示,该模型在跟踪精度和整体稳定性方面均明显优于对比方法,尤其在长时间序列中表现更加稳健。

在图像与视频分割任务中,OneThinker 能够结合推理过程生成结构化提示,从而有效引导分割模型获得更加精确的目标区域。实验结果表明,该模型在细粒度视觉理解任务中同样具备较强竞争力,说明推理机制能够对感知类任务形成有效补充。

此外,通过消融实验可以发现,仅采用监督微调而不引入强化学习,会导致模型在多项任务上的性能明显下降;同时,用传统强化学习方法替代论文提出的 EMA-GRPO 算法,也会引起整体性能的退化。这进一步验证了强化学习策略及其改进方法在统一多任务训练中的重要作用。

最后,在未参与训练的新任务上,OneThinker 依然表现出较好的零样本泛化能力,说明统一多任务训练有助于模型学习更加通用和可迁移的视觉推理知识。

为支持统一多模态推理模型的训练,研究中构建了一个大规模、多任务的数据集,覆盖图像和视频两种模态。这个数据集包含问答、描述、时间定位、空间定位、时空定位、目标跟踪以及分割等多种视觉理解任务,数据来源广泛,涵盖多个应用领域和不同难度层级,从而为模型学习多样化的视觉推理能力提供了充分支撑。
在此基础上,研究团队还进一步构建了一个带有推理过程标注的子数据集,用于模型的监督微调阶段。该子数据集中的推理过程由性能较强的模型自动生成,并经过严格的筛选与校验,以保证推理链条在逻辑正确性和表达一致性方面的可靠性,为后续强化学习阶段奠定了良好的初始化基础。

在训练过程中,所有任务均被统一表示为“先推理、后作答”的形式,即模型首先生成内部推理过程,再输出最终答案或结构化结果。这种统一的任务表达方式使不同类型的任务能够在同一训练框架下进行联合优化,同时也便于奖励函数的自动计算与评估。雷峰网
对于感知类任务,模型需要输出符合预定义格式的结构化结果,以确保评估过程具有良好的可重复性和稳定性,从而避免因输出格式差异带来的评价偏差。

在完成监督微调之后,研究团队引入强化学习进一步提升模型的推理能力。在训练过程中,模型根据不同任务类型获得相应的准确性奖励和格式奖励,从而引导模型生成既符合任务目标又满足输出规范的结果。

针对多任务训练中不同任务奖励分布差异较大的问题,研究中提出了一种基于指数滑动平均的归一化方法,使各类任务在训练过程中能够获得相对平衡的优化信号,从而有效避免模型过度偏向少数奖励分布较强的任务。
模型训练在大规模 GPU 集群上完成,整体训练流程分为监督微调和强化学习两个阶段。通过合理设置学习率、批大小以及视频帧数上限,在保证训练效率的同时,实现了稳定而有效的多任务联合优化。
从实验结果可以看出,统一的多模态推理模型在性能层面具有良好的可行性和有效性。这一发现表明,将不同视觉任务整合到同一模型中进行建模,并不会削弱模型在单一任务上的表现,反而能够在整体上提升其推理能力。雷峰网(公众号:雷峰网)
同时,实验也显示,强化学习并非只适用于语言推理任务,在引入合适的建模方式后,同样可以有效作用于视觉感知和时序理解等多模态场景。
在这一背景下,OneThinker 所采用的模型设计思路展现出一定的普适性。通过统一接口、统一训练流程以及统一优化策略,不同任务和不同模态之间得以共享推理能力和结构性知识,从而减少了重复建模的需求。这种设计范式为通用视觉推理模型的构建提供了一条相对清晰且具有复用价值的技术路径。
从应用层面来看,统一的多模态推理模型也更贴近真实场景的实际需求。在诸如自动驾驶、智能监控以及机器人感知与决策等任务中,系统往往需要在同一框架下同时完成理解、推理和定位等多种功能。相比依赖多个独立模型的方案,统一模型在系统复杂度控制和任务协同方面具有更大的潜在优势。
总体而言,这些实验结果提示,多模态通用模型的发展方向不应仅停留在模型规模的扩展上,而更值得关注的是任务建模方式的统一、推理机制的合理设计以及训练策略的协同优化。
这些方面的探索为后续多模态通用智能系统的研究提供了有益的参考。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。