0
如果把近几年计算机视觉的发展放在一个更长的时间尺度上去看,会发现整个领域其实一直在沿着一条非常明确但也非常受限的路径前进:
研究者不断把模型做得更大,把训练数据堆得更多,把单项 benchmark 指标推得更高,于是无论是分割、重建还是生成,模型在标准任务上的表现都在持续逼近“看起来已经足够强”的状态。
但如果把视角拉回到 CVPR 2026 前后这一批最新工作,会发现一个更值得警惕的变化正在发生:研究的重心,正在悄悄从“把答案做对”,转向“在不完美条件下依然能够持续理解世界”。
也就是说,这一轮进展不再只是精度层面的线性推进,而更像是对视觉系统基本工作方式的一次系统性松动。
问题在于,这种“强”,往往建立在一个并不真实的假设之上——默认输入信息是充分的、任务定义是清晰的、交互过程是单轮的、场景变化是可预期的。换句话说,过去的大多数视觉模型虽然在实验环境中越来越像一个“高精度求解器”,却依然很难成为一个真正能够在开放环境中持续理解、持续修正、持续适应的视觉智能体。
而 CVPR 2026 这一波工作最值得关注的地方,恰恰不在于它们分别把某个子任务的数字提高了多少,而在于它们几乎不约而同地开始挑战这个旧时代视觉系统最根本的四个默认前提:模型是否必须冻结、目标是否必须预定义、信息是否必须充分、输入是否必须结构化。
整个变化,是从交互式视频分割这里率先被撕开口子的。
长期以来,交互式视频分割给人的印象似乎已经相当成熟:用户点击一下,模型修正一下;用户框选一下,模型继续传播掩码。看起来人机协同已经建立起来了。但康奈尔大学在《Live Interactive Training for Video Segmentation》中指出,这其实是一种很容易让人忽略的“伪交互”。因为在现有范式下,所谓交互只发生在输出层,模型的内部知识却是完全静止的。
这意味着什么?意味着当视频里出现遮挡、光照突变、主体分裂或者背景伪装时,模型第一次犯错,用户点击修正;下一次遇到同样的视觉模式,它大概率还会再犯同样的错。用户似乎一直在参与,但参与的只是重复劳动——用户并没有真的把自己的判断传递进模型的内部表征。
所以这篇论文真正想打破的,并不是“如何让点击提示更有效”这种局部工程问题,而是更底层地在追问:为什么我们默认推理阶段的模型必须是冻结的?为什么用户反馈只能被当成 prompt,而不能被当成即时学习信号?
LIT 的提出,本质上就是把交互式视觉系统从“提示—响应”结构,推进到了“反馈—吸收—再预测”的动态闭环。用户一次纠错之后,轻量级 LIT-LoRA 模块立刻完成局部在线更新,模型随即对当前视频的运动模式、遮挡关系和外观变化形成短时适应。于是,用户的点击不再只是修补当前这一帧,而是开始改变模型之后的判断逻辑。
这看起来像是一点点在线训练的加入,但它实际打破的是视觉推理几十年来非常顽固的一条边界:推理不再只是参数冻结下的被动执行,而开始拥有任务内自我更新能力。换句话说,视觉模型第一次开始在使用过程中“成长”。
而一旦“模型可以在任务中成长”这件事被打开,研究自然会往前追问另一层问题:如果模型拥有足够强的内部表征,它是不是甚至不需要显式训练,也能根据极少的上下文快速理解用户想要的目标?

这就引出了 INSID3 的价值。Politecnico di Torino、TU Darmstadt 与 TU Munich 联合完成的《INSID3: Training-Free In-Context Segmentation with DINOv3》,表面看是在做一个“免训练上下文示例分割”,但它真正挑战的是过去视觉分割领域对“任务泛化”的理解方式。
传统分割系统的泛化能力通常来自类别预训练、任务微调,或者额外训练一个 support-query 适配头。也就是说,研究界始终默认:想让模型理解一个新目标,就必须通过参数层面的新学习去注入任务知识。
INSID3 的反向论证则非常激进——作者认为,自监督基础模型 DINOv3 内部其实已经潜藏了大量跨像素、跨区域、跨语义层级的对应知识,这些知识不是不存在,而是过去的任务设计没有把它有效调动出来。
因此他们不再训练任何分割头,而是直接让参考图与查询图在冻结特征空间里建立密集语义映射,让“这一块是什么”的定义通过特征相似性自然传递。这意味着模型并不是通过新训练获得理解,而是在已有表征中被上下文示例即时唤醒。
这背后非常关键:LIT 证明模型可以从即时反馈里学习;INSID3 则进一步证明,模型甚至可能在不学习的情况下,仅凭上下文就完成任务临场重定义。前者是在打破“推理冻结”,后者是在打破“目标预定义”。
也就是说,视觉系统正在逐渐摆脱那种“训练时决定一切,测试时只能执行”的旧工业流程。

但当模型开始拥有这种临场适应与临场理解能力后,更尖锐的问题随之出现:现实世界提供给模型的信息,往往根本不像 benchmark 那样完整。这里,《Long-Tail Internet Photo Reconstruction》的出现就显得极其重要。
Cornell University 和 Kempner Institute 的研究者指出,今天几乎所有互联网三维重建方法之所以在论文中表现稳定,是因为它们长期依赖热门地标数据训练:照片多、重叠强、视角密、几何对应关系天然充足。
然而真实互联网世界的绝大多数地点并不满足这个条件。更多时候,用户上传的是几张零散的手机拍摄图,角度不统一,清晰度参差不齐,甚至主体只在少量区域出现。换句话说,模型面对的不是“信息充分的重建任务”,而是“信息极度稀缺下的结构猜测任务”。
这篇论文的深刻之处在于,它没有像以往那样继续在重建算法局部模块上缝缝补补,而是直接指出:问题根本不在推理器,而在训练分布。模型之所以不会处理长尾场景,不是因为它不会重建,而是因为它从未在“少照片、弱重叠、低覆盖”的真实互联网分布上形成过几何推理习惯。
于是 MegaDepth-X 的意义,是人为制造一种长期被 benchmark 回避掉的稀疏现实,让 3D Foundation Model 学会在缺信息、弱对应、低冗余条件下仍然建立结构认知。
到这里,视觉系统的第三个旧前提也被击穿了:模型不再被允许只在信息充足时工作,它必须开始具备从碎片线索中补全世界的能力。而这种“从局部线索恢复整体逻辑”的趋势,很快又被延伸到了三维资产理解与生成一致性问题上。

比如《Material Magic Wand: Material-Aware Grouping of 3D Parts in Untextured Meshes》看似只是一个三维材质分组工具,但它真正挑战的是视觉模型长期以来“只理解几何相似性,却不理解设计语义”的局限。
多伦多大学与 Adobe 研究院关注的是无纹理三维网格中的材质感知部件分组问题:在真实三维资产中,窗框、栏杆、瓦片、鳞片、果壳这类局部结构经常重复出现,却并不一定在几何上完全相同;但在后续材质编辑中,它们往往又需要被赋予同一种木材、金属或石材纹理。
这正是传统方法的短板。过去模型通常依据几何相似性来检索部件,因此更容易找到“长得像”的结构,却很难识别那些“形状不同但材质逻辑一致”的对象。雷峰网
对于设计师来说,真正重要的并不是两个部件是否足够相似,而是它们在整体模型的功能、位置和视觉组织中,是否应该被一起处理。如果模型只能回答“像不像”,它仍然停留在视觉表面;只有当它开始判断“这些部件是否应该共享同一种材质”,才算接近真实三维创作中的语义理解。
Material Magic Wand 的思路,是把二维图像里“魔棒工具”的交互逻辑迁移到三维网格中:用户只需点击一个部件,系统就自动找出模型中所有可能共享相同材质属性的其他部件。
为此,作者设计了 material-aware embedding,在编码三维部件时,不只看局部几何形状,也结合它在整体模型中的上下文结构信息,并通过监督式对比学习,让相同材质的部件在特征空间中更接近、不同材质的部件彼此区分。

这说明视觉模型正在从“识别物体是什么”,向“理解人类为什么这样使用这些物体”过渡。同样的逻辑,在 由魏茨曼科学研究所(Weizmann Institute of Science)提出的《Match-and-Fuse: Consistent Generation from Unstructured Image Sets》中被推到了生成端。
这项研究关注的是非结构化图像集合的一致性生成:输入不再是一张单图,也不是连续视频帧,而是一组共享某个主体、但在视角、时间、姿态和背景上差异很大的图像,比如商品展示图、人物相册或故事板参考图。
这类任务的难点在于,这些图像没有视频那样天然连续的时序约束,却又要求生成结果在主体身份、外观纹理和细节结构上保持一致。传统生成模型往往习惯逐张处理,因此很容易出现身份漂移、纹理变化或细节错乱,本质上是因为模型没有把“这一组图属于同一个整体语义系统”真正建模进去。
Match-and-Fuse 的做法,是把整组输入图像建模成图结构:每张图像作为一个节点,相关图像之间建立边连接,并在边上执行联合双图生成。这样模型能够先捕捉任意两张图之间的共享信息,再把局部一致性约束融合成全局一致输出。
同时,论文还利用稠密像素匹配,在扩散模型内部进行跨图特征融合,让不同视角下属于同一对象的区域共享潜在表示,从而无需额外训练或人工掩码,也能维持服饰纹理、商品细节、文字标识等细粒度一致性。
雷峰网
把这些工作放在一起看,会发现它们虽然分属视频分割、上下文分割、三维重建、三维编辑和一致性生成等不同方向,但真正共同推动的,其实是同一件事:视觉模型正在被迫离开那个过去被 benchmark 精心整理好的理想环境。
在那里,输入是完整的,目标是清楚的,图像关系是预设的,用户反馈也只是有限的补充;模型要做的,只是在一次推理里尽可能给出正确答案。但现实世界显然不是这样。它的信息往往是残缺的,目标会临时变化,用户会不断介入,不同视角和不同图片之间还隐藏着大量需要被主动整合的关系。
也正因为如此,这一批工作最值得关注的地方,并不是它们分别把某个任务做得更强,而是它们开始集体拆掉视觉系统过去赖以成立的那些默认前提:模型不再必须冻结,目标不再必须预定义,输入不再必须充分,图像也不再必须被单独处理。雷峰网(公众号:雷峰网)
如果说过去的计算机视觉更擅长的是“看懂一张图、答对一道题”,那么现在的新一轮研究正在让模型学会的是另一种能力——在一个持续变化、信息不完整、关系高度交织的视觉环境里,边接收反馈,边补全认知,边重新组织自己对整个场景的理解。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。