0
| 本文作者: 陈淑瑜 | 2026-04-30 16:04 | 专题:CVPR 计算机视觉与模式识别会议 |
【封面图片来源:网站名微信公众号,所有者:机器之心】
在多模态大模型飞速发展的今天,如何精准地将密集的"图像块(Patch)"表示与对应概念的"文本嵌入"对齐,依然是阻碍模型迈向更细粒度理解的"致命弱点"。研究团队在消融实验中发现了一个反直觉现象:通过块级别蒸馏出的小参数学生模型,在零样本分割等密集型图文对齐任务上,性能竟然大幅反超了规模巨大的教师模型!。
论文提出 TIPSv2,通过三大技术创新大幅提升Patch-Text对齐质量,在零样本分割等密集任务上全面霸榜。该研究成果《TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment》已成功被计算机视觉顶级会议 CVPR 2026 接收。目前,模型权重(涵盖从 86M 到 1.1B 参数),代码以及在线体验 Demo 已全面开源。

TIPSv2 通过三大核心技术创新,实现了Patch-Text对齐的质的飞跃。
经典iBOT目标函数只针对Masked Tokens计算损失。iBOT++将自监督的Patch级别损失强行扩展到所有Tokens(包括未被遮挡的可见Tokens),在不增加任何额外网络参数的条件下,ADE150数据集零样本分割mIoU从3.5飙升至17.6,实现+14.1的巨大飞跃。这一设计使模型在蒸馏过程中充分学习所有Patch的对齐特性。
由于模型同时接收了强有力的文本监督信号,底层视觉骨干网络在训练初期就具备很好的稳定性。仅对顶层投影头执行EMA更新,冻结视觉主干网络的EMA,在完美保持性能的同时大幅降低训练显存需求,使大规模训练成为可能。
构建极度丰富的数据标注配方,包括传统Alt-text、PaliGemma生成的密集局部字幕、Gemini Flash生成的深度描述。训练过程中模型在不同粒度描述之间进行随机交替,极大提升了模型应对复杂密集对齐任务的鲁棒性。

TIPSv2在零样本分割四大基准测试中全面超越SigLIP2,正面击败专门优化此类任务的SILC和DINOv2架构。以更通用、简洁的架构实现越级超越,证明了细粒度Patch-Text对齐对密集任务的关键驱动作用。
TIPSv2-g(1.1B参数)在5个共享评估体系中硬核击败业界顶尖PE-core G/14(参数量多出56%,训练图文对数据是TIPSv2的47倍),证明了图文双模态联合约束优于单一纯视觉预训练的核心结论。
TIPSv2在6项共享任务中以4:2击败参数量6倍于己、训练数据15倍于己的DINOv3。特征可视化显示TIPSv2的表征具备极致的平滑性和极强的语义聚焦能力,物体边界轮廓更精准锐利,区域内部展现更丰富的语义细节。全部模型权重与代码已开源(Apache 2.0协议)。
──────────────────────────────────────────
上述内容包含AI辅助生成,更详细信息参见两个链接
论文链接:https://gdm-tipsv2.github.io/
解读来源:https://mp.weixin.qq.com/s/R_Yn6_DytVEEczLKg6ivTA
雷峰网版权文章,未经授权禁止转载。详情见转载须知。