CVPR 2026｜不用 fine-tuning，也不用 SAM，DINOv3 能直接学会分割吗？INSID3 平均高 7.5 个点

本文作者：陈淑瑜
2026-06-01 15:07
导语：INSID3 的分量在于，它不是只在一个 benchmark 上赢，而是在 semantic、part、personalized 三类任务里都把单 backbo
来源：公众号“AI上分搭子”
原文链接：https://mp.weixin.qq.com/s/26c4oCUgjQueMImEspWBow

TL;DR• 这篇论文盯住的是 in-context segmentation 里一个很现实的问题：现有方法要么得 fine-tune，泛化会收窄；要么得把 DINO 和 SAM 拼起来，结构又重又复杂。
• 作者提出 INSID3。做法很克制：只用 frozen DINOv3。先把跨图匹配里的 positional bias 去掉，再做聚类、选 seed cluster，最后靠 cross-image similarity 和 self-similarity 把 mask 聚出来。
• 结果也很硬。论文报告它在 one-shot semantic、part、personalized segmentation 上平均比已有方法高 7.5 个点 mIoU，同时只用 304M 参数；在 RTX 4090 上，单次推理 302 ms。
01｜这篇论文到底想解决什么In-context segmentation 想做的事情并不复杂。
给一张带标注的参考图，再去目标图里把同一个概念分出来。
这个概念可以是一个物体。
也可以是一个部件。
甚至可以是某个特定实例。
难点在于，现在主流方法基本都卡在两条路里。
一条路是 fine-tune foundation model，或者额外挂一个 decoder。
这样做，in-domain 分数通常会比较高。
但一换数据域，或者一换语义粒度，泛化就容易掉。
另一条路是 training-free。
常见做法是让 DINO 负责匹配，让 SAM 负责出 mask。
这一套的泛化会稳一些，但链路更重，也天然受制于 SAM 的 mask prior。
所以真正的问题其实是：
如果 backbone 本身已经有足够强的 dense self-supervised feature，分割能力能不能直接从表示里长出来？
这正是 INSID3 想回答的事。
它不想再加模块。
也不想再做 task-specific training。
它想试试看：只靠一个 frozen self-supervised backbone，能不能把 ICS 真正做起来。
02｜Key InsightINSID3 的关键，不是“再设计一个更复杂的 segmentation head”。
它真正抓住的是 DINOv3 里的两种能力。
第一，DINOv3 的 dense features 已经有很强的局部结构。
这意味着，同一物体或部件，本来就很容易在特征空间里聚成比较连贯的区域。
第二，它确实也能做跨图语义匹配。
但这里混着一层明显的 positional bias。
也就是：两个图里相同坐标附近的 patch，哪怕语义不对，也会更容易互相“看上”。
这篇工作的想法很干脆：
先把这层偏置从跨图匹配里拿掉。
然后把“跨图语义对得上”和“图内结构也连得上”这两件事放到一起看。
这样一来，单 backbone 也能把 reference-guided segmentation 做出来。
Figure 1 传递的信息很直接：INSID3 不是在某个单一 benchmark 上刷高，而是在不同数据域、不同语义粒度下都能保持住。
03｜核心方法整个方法可以压成三步。
第一步：先把目标图拆成一块一块的 cluster作者先用 DINOv3 特征在目标图里做 agglomerative clustering。
目的不是直接出 mask。
而是先把图像拆成一块一块语义上更连贯的区域。
这一步很重要。
因为它给后面的匹配提供了更稳定的“候选单元”。
第二步：找 seed cluster接着，用去偏之后的跨图匹配去找 seed cluster。
你可以把它理解成：
在目标图里，先找到和参考区域最对得上的那一小块。
这里用的是 debiased feature space。
因为跨图匹配最怕的，恰恰就是坐标偏置把不相关的区域也点亮。
第三步：把 mask 从 seed 往外长出来只找到 seed 还不够。
很多时候，seed 只会落在最显眼的局部。
比如人的头、长颈鹿的脖子，或者器官里最稳定的那一小块。
所以后面还得再做一步 aggregation。
INSID3 会把图内和 seed 在结构上也贴得近的 cluster 一起并进来。
最后得到完整 mask。
整条线最关键的设计，其实就两个：
• 把 DINOv3 的 positional bias 从跨图匹配里显式拿掉
• 把 cross-image similarity 和 intra-image coherence 合成一个统一分数
也正因为这样，它不再依赖 SAM 提供 mask prior，也不需要任何 task-specific supervision。
04｜最少公式版理解如果只留两条公式，其实就够了。
Step 1｜先把 positional bias 从特征里拿掉这条式子的意思很直接。
先估计一块主要承载绝对位置偏置的子空间。
然后把特征投影到它的正交补里。
做完这步之后，跨图匹配更看语义，不容易再被“同一坐标位置”误导。
Step 2｜最终是不是并进 mask，要同时看两种相似度这里也很好理解。
一个 candidate cluster 只有在两件事都成立时，才应该被并进最终 mask：
• 它和参考区域在跨图上语义相似
• 它在目标图内部也和 seed cluster 结构一致
INSID3 用乘法把这两个条件绑在一起。
这一步其实就是整篇方法最核心的判断。
05｜和相关方法比，它到底强在哪Table 1 是整篇论文最硬的一张表。
因为它不是只看 one-shot semantic segmentation。
它把 semantic、part、personalized 三类任务一起放进来了。
这很关键。
因为 INSID3 的价值本来就不在某一个点。
它最强的地方，是整体 generalization。
先看平均分。
和最强的 training-free baseline GF-SAM 相比，INSID3 的平均 mIoU 从 47.6 拉到 55.1。
就算把 GF-SAM 升级成 DINOv3 版，再加上作者的 debias，平均也只有 48.8。
更重要的是，这不是靠更重的结构换来的。
• INSID3：304M 参数
• GF-SAM 这条线：945M 参数
换句话说，它不只是更强，也更轻。
先抓几组关键数字：
• Table 1：INSID3 平均 mIoU 55.1，高于 GF-SAM 的 47.6，也高于带 debias 的 DINOv3+SAM 版本 48.8。
• Table 1：PerMIS 上 INSID3 做到 67.0，比 GF-SAM 的 54.1 高 12.9 个点。
• Table 11：INSID3 单次推理 302 ms，而 GF-SAM 是 1,030 ms，Matcher 更是 9,000 ms。
再往下看，会更清楚。
如果只盯 COCO-20i 这种更接近训练分布的 benchmark，INSID3 并不是所有格子都第一。
这恰好说明，它的追求并不是单个 in-domain 峰值。
真正该看的，是它在不同域、不同粒度上的稳定性。
比如：
• LVIS-92i：41.8，比 GF-SAM 高 6.6 个点
• Chest X-Ray：78.8，比 GF-SAM 高 27.8 个点
• PASCAL-Part：50.5，比 GF-SAM 高 6.0 个点
• PACO-Part：38.7，比 GF-SAM 高 2.4 个点
• PerMIS：67.0，比 GF-SAM 高 12.9 个点
这张表还有一个很值得记住的判断。
像 SegIC 这种 fine-tuned 方法，在 COCO-20i 上能到 76.1。
看上去很强。
但一旦换到别的域，或者 finer granularity，掉得就很快。
INSID3 的强项正好相反。
它追的不是“最熟悉 benchmark 上的最高点”。
它追的是：
换域之后，还能不能站住。
06｜Ablation：提出的部分到底有没有用消融部分最好的一点，是它没有停在“完整模型最好”这种结论上。
作者真正拆开去看了两件事：
• clustering 本身到底有没有必要
• aggregation 到底是不是关键步骤
Table 3 很直白。
如果不做 clustering，只是对 similarity map 直接阈值化，COCO-20i / PASCAL-Part 只有 44.2 / 35.4。
如果加了 clustering，但不做 aggregation，问题还是没解决。
你还是得在 object-level 和 part-level 之间二选一。
直到把 cross-image similarity 和 intra-image self-similarity 真的合到一起，结果才到 57.6 / 50.5。
这说明什么？
INSID3 不是“先找一个最像的局部，再把它当完整 mask”。
真正起作用的，是后面的 aggregation。
只靠 seed cluster 不够。
尤其在 part 和 object granularity 不一致的时候，更不够。
还有一个补充点也值得看。
去偏这件事不是装饰项。

正文和 Table 2、Fig. 7 都在说明这一点。
作者固定 debias rank 之后：
• COCO 上有 +3.1 个点
• PASCAL-Part 上有 +2.7 个点
• SPair-71k 上，不同 backbone 尺度下还能带来 +0.9 到 +6.6 的 PCK 增益
所以这里提出的两个核心部分，其实都有效：
• debiasing，让跨图匹配更像语义匹配
• clustering + aggregation，让 mask 不再被困在最显眼的那一小块里
07｜Takeaway MessageINSID3 真正往前推的，不只是一个新的 training-free segmentation trick。
更重要的是，它把一个原本很像默认共识的假设，硬生生掰开了。
以前大家会默认：
• 分割能力还得靠 decoder 补
• 或者靠 fine-tuning 补
• 或者靠 SAM 这种外部 mask prior 补
INSID3 说明，事情不一定非得这样。
如果 backbone 的 dense feature 足够强，
再把跨图匹配里的 positional bias 处理好，
单 backbone 也能把 in-context segmentation 做得很能打。
这不是一句轻飘飘的“training-free 也行”。
它更像是在提醒我们：
self-supervised dense representation 可能已经比很多人以为的更接近分割本身。
08｜代码、信息与 GPT-5.4 尾注代码 / 项目页：
• https://visinf.github.io/INSID3
GPT-5.4 尾注为什么值得看• 它回答的是一个很硬的问题：分割能力是不是一定得靠 decoder、fine-tuning，或者 SAM 这种外部 mask prior 才能补出来。
• INSID3 的分量在于，它不是只在一个 benchmark 上赢，而是在 semantic、part、personalized 三类任务里都把单 backbone 方案做成了。
读的时候要保留的判断• 如果你只盯 COCO-20i 这种 in-domain 数字，很容易低估这篇工作。它真正强的是 generalization，而不是某个熟悉 benchmark 上的绝对峰值。
• 这篇工作的关键，不只是“training-free”四个字，而是它说明 DINOv3 的 dense self-supervised representation 已经强到能直接支撑 segmentation pipeline。
后续可以关注什么• 这种“单 backbone + 去偏 + 聚类聚合”的思路，后面能不能扩到 multi-concept 或 instance-level ICS。
• 另一个值得继续看的方向，是更轻的 prompt 形式。现在 INSID3 还是吃 mask reference，如果以后能稳稳接住 point 或 box，实用性会再上一个台阶。
Reference• Cuttano et al. INSID3: Training-Free In-Context Segmentation with DINOv3. CVPR, 2026.
• Meng et al. SegIC: Unleashing the Emergent Correspondence for In-Context Segmentation. ECCV, 2024.
• Liu et al. Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching. ICLR, 2024.
• Oquab et al. DINOv2: Learning Robust Visual Features without Supervision. TMLR, 2024.
• Kirillov et al. Segment Anything. ICCV, 2023.
0人收藏
专题
CVPR 计算机视觉与模式识别会议

本专题其他文章
陈淑瑜
编辑
发私信
当月热门文章