您正在使用IE低版浏览器，为了您的雷峰网账号安全和更好的产品体验，强烈建议使用更快更安全的浏览器

此为临时链接，仅用于文章预览，将在时失效

人工智能正文

发私信给陈淑瑜

发送

0

TIPSv2——谷歌DeepMind重磅开源，Patch-Text对齐最优表现全面超越SigLIP2 | CVPR 2026 Highlight 《大标题

本文作者：陈淑瑜

2026-04-30 16:04

专题：CVPR 计算机视觉与模式识别会议

导语：论文提出 TIPSv2，通过三大技术创新大幅提升Patch-Text对齐质量，在零样本分割等密集任务上全面霸榜。

【封面图片来源：网站名微信公众号，所有者：机器之心】

一、背景

在多模态大模型飞速发展的今天，如何精准地将密集的"图像块（Patch）"表示与对应概念的"文本嵌入"对齐，依然是阻碍模型迈向更细粒度理解的"致命弱点"。研究团队在消融实验中发现了一个反直觉现象：通过块级别蒸馏出的小参数学生模型，在零样本分割等密集型图文对齐任务上，性能竟然大幅反超了规模巨大的教师模型！。

论文提出 TIPSv2，通过三大技术创新大幅提升Patch-Text对齐质量，在零样本分割等密集任务上全面霸榜。该研究成果《TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment》已成功被计算机视觉顶级会议 CVPR 2026 接收。目前，模型权重（涵盖从 86M 到 1.1B 参数），代码以及在线体验 Demo 已全面开源。

TIPSv2——谷歌DeepMind重磅开源，Patch-Text对齐最优表现全面超越SigLIP2 | CVPR 2026 Highlight 《大标题

二、核心方法

TIPSv2 通过三大核心技术创新，实现了Patch-Text对齐的质的飞跃。

iBOT++——全局视角的自监督对齐引擎：

经典iBOT目标函数只针对Masked Tokens计算损失。iBOT++将自监督的Patch级别损失强行扩展到所有Tokens（包括未被遮挡的可见Tokens），在不增加任何额外网络参数的条件下，ADE150数据集零样本分割mIoU从3.5飙升至17.6，实现+14.1的巨大飞跃。这一设计使模型在蒸馏过程中充分学习所有Patch的对齐特性。

Head-only EMA——突破显存瓶颈的高效策略：

由于模型同时接收了强有力的文本监督信号，底层视觉骨干网络在训练初期就具备很好的稳定性。仅对顶层投影头执行EMA更新，冻结视觉主干网络的EMA，在完美保持性能的同时大幅降低训练显存需求，使大规模训练成为可能。

多粒度文本描述（Multi-Granularity Captions）：

构建极度丰富的数据标注配方，包括传统Alt-text、PaliGemma生成的密集局部字幕、Gemini Flash生成的深度描述。训练过程中模型在不同粒度描述之间进行随机交替，极大提升了模型应对复杂密集对齐任务的鲁棒性。

TIPSv2——谷歌DeepMind重磅开源，Patch-Text对齐最优表现全面超越SigLIP2 | CVPR 2026 Highlight 《大标题

三、亮点总结

创新点一：零样本分割四大基准全面霸榜

TIPSv2在零样本分割四大基准测试中全面超越SigLIP2，正面击败专门优化此类任务的SILC和DINOv2架构。以更通用、简洁的架构实现越级超越，证明了细粒度Patch-Text对齐对密集任务的关键驱动作用。

创新点二：TIPSv2-g以1.1B参数超越PE-core G/14

TIPSv2-g（1.1B参数）在5个共享评估体系中硬核击败业界顶尖PE-core G/14（参数量多出56%，训练图文对数据是TIPSv2的47倍），证明了图文双模态联合约束优于单一纯视觉预训练的核心结论。

创新点三：与DINOv3巅峰对决赢4项

TIPSv2在6项共享任务中以4:2击败参数量6倍于己、训练数据15倍于己的DINOv3。特征可视化显示TIPSv2的表征具备极致的平滑性和极强的语义聚焦能力，物体边界轮廓更精准锐利，区域内部展现更丰富的语义细节。全部模型权重与代码已开源（Apache 2.0协议）。

──────────────────────────────────────────

上述内容包含AI辅助生成，更详细信息参见两个链接

论文链接：https://gdm-tipsv2.github.io/

解读来源：https://mp.weixin.qq.com/s/R_Yn6_DytVEEczLKg6ivTA

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

0人收藏

分享：

相关文章

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

more

陈淑瑜

编辑

发私信

当月热门文章

最新文章

热门搜索

区块链无人驾驶 Siri 上市电池 Android游戏软银 paypal 以太坊 CES 2015 傅盛

为了您的账户安全，请验证邮箱

您的邮箱还未验证,完成可获20积分哟！

重发邮箱修改邮箱

请验证您的邮箱

立即验证

完善账号信息

您的账号已经绑定，现在您可以设置密码以方便用邮箱登录

立即设置 以后再说