0
| 本文作者: 陈淑瑜 | 2026-05-28 11:38 |
来源:公众号“Al & Multimodal ”
原文链接:https://mp.weixin.qq.com/s/RUoVbXgdFbIeeDOcnYQqng?scene=1&click_id=148
作者 | Darlene

论文题目:
OddGridBench:揭示多模态大语言模型缺乏细粒度视觉差异敏感性
OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
会议/期刊:
CVPR 2026
作者:
Tengjin Weng、Wenhao Jiang、Jingyi Wang、Ming Li、Lin Ma、Zhong Ming等,来自深圳大学、清华大学深圳国际研究生院、美团等单位。
文章地址:
https://arxiv.org/abs/2603.09326
Github地址:

摘要
多模态大型语言模型(MLLMs)在广泛的视觉语言任务中表现出了卓越的性能。然而,它们在低级视觉感知方面的能力,特别是对细微视觉差异的检测能力,仍未得到充分探索,也缺乏系统的分析。
该论文提出OddGridBench,一个用于评估MLLMs视觉差异敏感性的可控基准。OddGridBench包含超过1400张网格图像,其中单个元素在颜色、大小、旋转或位置上与其余元素存在微小差异。
实验表明,所有评估的MLLMs,包括开源系列(如Qwen3-VL和InternVL3.5,以及专有系统如Gemini-2.5-Pro和GPT-5)在视觉差异检测方面的表现都远低于人类水平。为进一步提升模型能力,作者提出OddGrid-GRPO,一个结合课程学习与距离感知奖励的强化学习框架。通过逐步控制训练样本的难度,并将空间邻近约束纳入奖励设计中,OddGridGRPO显著增强了模型的精细视觉辨别能力。该论文希望OddGridBench和OddGrid-GRPO能够为多模态智能中感知基础的建立以及视觉差异敏感度的提升奠定基础。

图 1. 人类感知视觉差异敏感度的示意图,展示了从难以察觉到能够察觉的色彩、旋转和尺寸方面的视觉差异的转变过程。

主要贡献
1. 提出了OddGridBench,一个可扩展且可控的基准测试工具,用于评估多语言语言模型在感知差异方面的能力。通过在参数化空间中生成基于网格的图像,并持续控制颜色、大小、旋转和位置等要素,OddGridBench能够对模型在多个感知维度上的敏感性进行定量和系统的分析。
2. 对一系列最先进的开源和专有机器学习语言模型进行了全面的实验,结果揭示了在所有模型类别中,细粒度感知识别方面存在一致且此前未被充分研究的故障模式。
3. 提出了OddGrid-GRPO,它将循序渐进学习与一种基于距离的奖励机制相结合,这种奖励机制能提供持续的感知反馈。该框架能够逐步增强差异敏感性,并实现更精细的视觉辨别能力。

图 2. 奇异网格基准测试概述。奇异网格基准测试涵盖了四个主要的视觉属性,包括颜色、大小、旋转和位置,并支持单一属性和多属性差异组合,为评估多层低秩模型的感知差异敏感性提供了一个系统的框架。

图 3.MLLMs 在 OddGridBench 上的评估结果。人类的表现明显优于所有参与评估的 MLLM,无论是在颜色、尺寸、旋转和位置方面,还是在多种类型组合方面均如此。

具体细节
论文构建了 OddGridBench数据集,采用“奇偶检测”范式,每个样本是一个由 5×5 至 9×9 图标组成的网格,其中只有一个图标在颜色(ΔE)、大小(Δs)、旋转(Δθ)或位置(Δx,Δy)上与其余图标存在微小差异。数据集包含 1400 个测试样本,覆盖四个单一属性变化和三个多属性组合。

图 4.OddGridBench数据生成流程概述:该流程在严格控制的感知条件下,根据收集到的图标构建基于网格的图像,以评估视觉差异敏感度。
在模型评估方面,作者测试了 19 个主流 MLLMs,包括开源模型(如 Qwen3-VL、InternVL3.5)和闭源系统(如 GPT-5、Gemini-2.5-Pro),并与人类表现进行对比。
在训练方法上,论文提出 OddGrid-GRPO,改进自 GRPO 算法。主要创新包括:(1)课程学习:将训练样本按难度分为易、中、难三组,逐步训练模型,从明显差异过渡到细微差异;(2)距离感知奖励:替代传统二元奖励,根据预测位置与真实位置之间的欧氏距离给予连续奖励(高斯衰减),并加入格式奖励。最终奖励函数为:


图 5.OddGrid-GRPO 框架概述。OddGrid-GRPO 将基于课程的优化与基于空间的奖励塑造相结合,以增强感知基础,并提高多语言语言模型中的精细视觉辨别能力。

实验结果
人类 vs 模型:人类总体准确率达 87.47%,而最佳模型 Qwen3-VL-32B 仅为 68.07%,Gemini-2.5-Pro 为 49.29%,GPT-5 仅 28.93%。

表 1.各种 MLLM 在 OddGridBench 数据集上的准确率(%)。该基准测试评估了在四个感知维度以及它们的多种组合下的精细视觉辨别能力。深灰色和浅灰色分别表示所有模型中的最佳结果和次佳结果。
属性差异敏感度:模型对颜色差异最敏感,对旋转和位置差异最不敏感。

图 6. 在四个视觉维度中不同感知差异幅度下的准确率。
OddGrid-GRPO 效果:在 Qwen3-VL-2B 上,OddGrid-GRPO 将总体准确率从 17.14%(基线)提升至 82.64%,显著优于标准 GRPO(70.86%)和 GSPO(75.93%)。

表 3. 在 OddGridBench 上针对所有感知属性类型,对 OddGrid-GRPO 与现有强化学习方法(上半部分)及其变体(下半部分)的定量比较结果。

总结
本文揭示了当前多模态大语言模型在细粒度视觉差异感知方面的系统性不足,提出并开源了可控、可扩展的评估基准 OddGridBench,以及有效的强化学习提升框架 OddGrid-GRPO。实验表明,即使是最先进的模型,在类似人类的视觉“找不同”任务中仍远未达到人类水平。
本文推出了 OddGridBench 这一可调控的基准测试工具,用于评估 MLLMs 的视觉差异敏感度。研究发现,精细的感知敏感度仍是当前 MLLMs 的一个关键瓶颈,阻碍了它们实现可靠且基于实际的视觉理解的能力。本文进一步开发了 OddGrid-GRPO,一个强化学习框架,它将空间距离嵌入到训练目标中,并将基于课程的优化与距离感知奖励相结合,以提高训练的稳定性和与人类一致的视觉敏感度。本文致力于OddGridBench 和 OddGridGRPO 构建了一个基于原理的感知基础学习框架,为多模态智能的感知基础提供了新的见解。
参考资料:
Weng T, Jiang W, Wang J, et al. OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models[J]. arXiv, 2026.
雷峰网版权文章,未经授权禁止转载。详情见转载须知。