CVPR 2026｜华中科技大学CCIIP实验室5篇论文被CVPR 2026全文录用！

本文作者：陈淑瑜

2026-05-28 17:56

专题：CVPR 计算机视觉与模式识别会议

导语：近日，计算机视觉领域的顶级国际会议CVPR 2026论文录用结果揭晓，华中科技大学认知计算与智能信息处理实验室共有5篇论文被录用

来源：公众号“华科大认知计算与智能信息处理”

原文链接：https://mp.weixin.qq.com/s/gIQoSDa_lkTbK0rt88PCmg?scene=1&click_id=179

近日，计算机视觉领域的顶级国际会议CVPR 2026论文录用结果揭晓，华中科技大学认知计算与智能信息处理实验室共有5篇论文被录用。

论文介绍

论文标题：CoRiM: Conflict-driven Risk Minimization for Dynamic Multimodal Fusion

论文作者：Shihao Zou(24级博), Wei Wei*（导师）

内容介绍：

现有动态多模态融合方法在处理模态冲突与数据质量不一致问题缺乏有效理论支撑。近期理论研究虽将模态权重与损失、置信度等指标相关联，但上述范式对于概率分布不一致等问题目前仍无法有效解决。因此，提出一种冲突风险最小化（CoRiM）的动态融合范式，其主要思想是将动态融合范式重定义为单样本直接风险最小化任务。具体来说，我们首先定义了一个可微的模态冲突风险（MCR）函数（R(w)），主要用于对模态融合中的不确定性以及模态间一致性建模来量化风险。其次，通过研究发现，最小化R(w)本质上是一个定义在概率单纯形（probabilistic simplex）上的非凸约束优化问题。因此，考虑引入无需投影的Frank-Wolfe（FW）算法，其能够有效契合单纯形上的优化任务，同时理论上也证明了所设计的R(w)函数具有L-光滑性，其保证了在FW算法在非凸目标上的收敛性。通过在多个基准数据集上的实验表明，所提模型在高冲突和噪声环境下相较于已有最优方法均取得了更优的性能表现。

CVPR 2026｜华中科技大学CCIIP实验室5篇论文被CVPR 2026全文录用！

图1：CoRiM模型框架图

论文标题：Debiased Sample Selection for Learning with Noisy Labels

论文作者：Weiran Pan(23级博), Wei Wei*（导师）, Wenfeng Xie

内容介绍：

现有噪声标签学习方法主要依赖小损失（small-loss）假设，即低损失样本对应标注更可能是正确的。然而，该假设忽略了两种存在的确认偏差：（1）类别级确认偏差：易学习类别的样本损失较低，导致简单样本被过度选择而忽略对困难样本的学习；（2）实例级确认偏差：低损失样本可能是错误标注导致其被错误地视为干净样本，以至模型强行拟合错误标签。因此，分别提出了边际分布调整（MDA）和候选类别选择（CCS）两种即插即用方法。MDA方法旨在通过动态调整模型预测的类别分布趋向均匀，以确保跨类别样本选择的公平性；CCS方法主要通过动态识别训练过程中潜在的正确标签，将其从分类任务中移除，以防止模型强制性抑制正确标签，同时将弱相关标签转化为有用的监督信号。通过在CIFAR-10/100合成噪声数据集以及真实世界噪声数据集（CIFAR-N、Clothing1M、WebVision）上实验表明，在现有样本选择器或先进LNL流程中集成上述两种所提即插即用方法（MDA/CCS）均取得有效性能提升，体现了所提方法在噪声标签学习方法中的普遍适用性。

图2：候选类别选择（CCS）方法示意图

论文标题：Text-Anchored Guided Optimization for Robust Fine-tuning Vision-Language Models under Label Noise

论文作者：Tengfei Ma(24级硕), Weiran Pan(23级博), Wei Wei*（导师）

内容介绍：

针对多模态大模型（如视觉- 语言模型，VLMs）微调对特定任务性能提升具有重要作用，但真实世界数据集中普遍存在标签噪声问题，导致其微调性能受限。传统带噪标签学习方法通常依赖自引用验证(即利用模型自身预测结果纠正错误)，而近期研究则利用跨模态信息辅助噪声检测，区别于上述方法，我们探索了一条不同的技术路径：不仅将文本模态用于噪声样本识别，更将其作为一种独立于训练数据潜在错误标注之外的“真实标签来源”。因此，提出了一种文本锚定引导优化（TANGO）框架，其以 “语义锚点”（一组由不同文本描述生成的静态干净的参考点）为核心重构了带噪标签学习两个关键点：（1）基于无参数化文本锚定分类器替代传统线性分类器，以利用干净锚点生成直接带权监督信号；（2）引入基于锚点引导的细化机制，主要利用每个样本的锚点标签信号验证给定样本标签，以用于样本选择及标签修正，以防止错误标签/信号导致的模型性能下降。通过大量实验表明，所提方法较已有最优方法取得了更佳性能。

图3 语义锚点概念图

论文标题：RDF-MIG: A Robust Diffusion Framework for Masked Image Generation to Augment Semantic Segmentation and Change Detection

论文作者：Zian Cao(24级博), Wei Wei*（导师）, Qingshan Gao, Yuanyuan Fu

内容介绍：

变化检测与语义分割是遥感卫星图像分析的关键技术之一，但高质量标注数据的获取成本通常较高，导致高质量标主数据稀缺。目前已有研究重点关注如何利用生成模型来缓解数据稀缺问题，但仍缺乏统一的生成框架能够同时应用于上述两类任务，且现有方法大多无法直接生成多光谱图像，导致其模型泛化性较弱。针对上述问题，提出了一种鲁棒性扩散模型框架（RDFMIG）用于掩码图像生成，其主要通过联合生成时相图像-变化掩码对以及单时相图像-语义分割掩码对以扩充训练数据集，从而有效增强下游任务（如变化检测和语义分割）的性能。此外，为提升生成图像-掩码对的质量，进一步提出了一种最大熵扩散损失函数用于对扩散模型的训练目标进行重构；以及设计了一种MSE一致性校准方法用于提升扩散模型鲁棒性，其主要通过解析方法使小误差梯度与MSE目标保持一致，从而能够直接复用现有扩散模型的成熟训练参数，而不需要额外进行调参。大量实验表明所提出的RDF-MIG方法能够有效生成多光谱图像-掩模对以显著提升下游任务性能，同时所提的MCRD损失函数能够进一步提升合成数据质量。

图4：RDF-MIG框架图

论文标题：VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

论文作者：Xinyao Liao(23级硕), Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei（导师）, Angela Yao

内容介绍：

目前，自回归（AR）视觉生成方法主要依赖于分词器（tokenizer）在图像和离散序列之间进行映射。然而，分词器训练目标与AR生成器之间存在天然的目标不一致性，即前者主要用于从真实token 重建清晰图像，而后者则仅针对 token 似然进行优化，因此上述目标不一致性导致生成的 token 序列在缺乏像素空间直接监督条件下，极易解码出低质图像。因此，提出了一种轻量级后训练框架（VA-π），其主要利用像素空间目标来直接优化 AR 模型。具体来说，VA-π 将生成器-分词器的对齐形式化为变分优化问题，通过推导出证据下界（ELBO），以实现像素重建与自回归建模的统一。同时为了保证在离散token 空间下进行优化，VA-π 还引入了基于强化学习对齐策略，即将 AR 生成器视为策略，并将像素空间的重建质量作为其内在奖励，该奖励通过在“教师强制（teacher forcing）”条件下预测的 token 序列重建原始图像的程度来衡量，从而为模型提供直接的像素级指导，且无需代价高昂的自由生成采样（free-running sampling）。同时，ELBO 的正则化项作为天然的正则化器，能够有效保持 token 的分布一致性，且VA-π 能够实现已有 AR 生成器的快速适配，无需重新训练分词器或依赖额外的外部奖励模型。通过大量实验表明，在仅使用 1% ImageNet-1K 训练数据且微调时长仅 25 分钟条件下，VA-π在 LlamaGen-XXL 模型上实现了 FID 从 14.36->7.65，IS 从86.55->116.70的显著性性能提升。同时，进一步在GenEval文本到图像生成基准上的实验表明，所提方法不仅提升了纯视觉生成模型（LlamaGen， 0.306->0.339）性能，还有效提升了统一多模态模型（Janus-Pro，0.725->0.744）的生成质量，体现其卓越性能。

图5：VA-π模型框架图

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章