您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能学术 正文
发私信给郑佳美
发送

0

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

本文作者: 郑佳美   2026-05-29 15:13 专题:CVPR 计算机视觉与模式识别会议
导语:复杂视觉关系成为生成模型的新考题。
CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界
复杂视觉关系成为生成模型的新考题。

    作者丨郑佳美

    编辑丨马晓宁

                                                                                                               

图像生成行业正在从“生成能力竞争”进入“可控能力竞争”。

过去,模型的核心价值主要体现在能否生成高质量、高清晰度、风格丰富的单张图像;而随着文生图、图生图和指令式编辑能力逐渐成熟,新的瓶颈开始显现:模型能否理解多张图片之间的关系,能否在不同视角和场景中保持同一对象的一致性,能否把多个参考来源自然融合到同一画面中,能否在数据缺失或退化时恢复可信细节,以及能否让用户精确控制每一次编辑的幅度。

这种变化也反映在 CVPR 2026 的相关研究中。越来越多工作开始从单张图像生成,转向多图关系建模、跨图像一致性保持、复杂场景组合、连续可控编辑和高质量视觉数据恢复。这说明图像生成和编辑的重点已经不只是“能不能生成”,而是模型能否在复杂约束下稳定理解对象、结构、关系和用户意图。

更深层来看,视觉生成模型正在从单次输出工具走向复杂视觉系统。它需要同时处理身份保持、结构对齐、语义融合、细节恢复和人机交互等问题。

也正因为如此,当前研究的重点正在从单张图像质量,转向多图一致性、组合泛化能力、底层数据表示以及精细化控制能力。谁能更好地把这些能力统一起来,谁就更接近下一阶段真正可用、可信、可控的视觉生成模型。

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

01


当图像模型不再只会「生成一张图」

《GroupEditing: Edit Multiple Images in One Go》关注的是“多图一致编辑”问题,相关研究来自香港科技大学、清华大学、上海交通大学和悉尼科技大学。论文主要研究如何对一组相关图片进行统一修改,并保证编辑后的结果在外观、身份、结构和语义上保持一致。雷峰网(公众号:雷峰网)

以往的图像编辑方法大多针对单张图片,如果把同一个指令分别应用到多张相关图片上,很容易出现编辑效果不统一的问题。比如同一个物体在不同视角或姿态下,颜色、形状或身份特征可能会被改得不一致。

针对这一问题,论文提出了 GroupEditing 框架,把一组静态图片看作“伪视频帧”,借助视频生成模型本身擅长保持连续帧一致性的特点,来提升多张图片之间的编辑一致性。

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

论文地址:https://arxiv.org/pdf/2603.22883v3

同时,论文还引入 VGGT 来提取图片之间的几何对应关系,并设计了 Ge-RoPE 和 Identity-RoPE 两个模块。前者帮助不同图片中的对应区域更好对齐,后者帮助同一对象在不同图片中保持身份和外观一致。也就是说,模型不仅知道“要改什么”,还能够更好地判断“不同图片中哪里是同一个对象或区域”。

这篇论文的亮点在于,它将图像编辑从单张图片扩展到一组相关图片,适用于商品多角度图、角色形象保持、同一物体不同视角编辑等场景。

方法上,它巧妙地结合了视频模型的一致性能力和显式几何对齐信息,使多图编辑结果更加稳定、统一。实验结果也表明,GroupEditing 在编辑质量、语义一致性和跨图像一致性方面都优于已有方法。

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

在多图一致编辑的基础上,《MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition》进一步关注多图组合生成问题,相关研究来自香港理工大学、清华大学、中山大学和 OPPO 研究院。

论文主要研究的是多图组合生成,也就是给模型多张参考图片,让它根据文本指令把这些图片中的人物、物体、服装或场景自然地组合到一张新图中,同时保持身份一致、语义合理和画面协调。

这项任务的难点在于,模型不仅要理解每张参考图中的关键内容,还要把多个来源的信息融合到同一场景里。例如,把一个人物、一件衣服、几个物体和一个背景组合成一张完整图片时,既不能丢失参考图中的身份特征,也不能让画面看起来像简单拼贴。

为了解决训练数据不足的问题,论文提出了 MICo-150K 数据集,系统覆盖 3 大类、7 个子任务和 27 种细粒度组合类型,并加入 De&Re 任务,即先把真实复杂图像拆解成组件,再重新组合。

在数据构建上,作者先收集并清洗人物、物体、服装和场景等高质量源图,再用 GPT-4o 生成多图组合指令,并通过 Nano-Banana 合成目标图像。

之后,论文使用 QwenVL2.5-72B、ArcFace 和人工筛选来检查生成结果,确保参考图片中的关键内容被正确保留,最终形成面向多图组合生成的大规模高质量数据集。

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

论文地址:https://arxiv.org/pdf/2512.07348v1

论文还提出了 MICo-Bench 评测基准和 Weighted-Ref-VIEScore 指标,用来更全面地评估多图组合生成的效果。实验中,作者用 MICo-150K 微调了多个开源模型,结果显示这些模型的多图组合能力都有明显提升。

其中基于 Qwen-Image-Edit 微调得到的 Qwen-MICo,在三图组合任务上接近甚至优于 Qwen-Image-2509,同时还能支持任意数量的多图输入。

这篇论文的亮点在于,它不是单纯提出一个新模型,而是系统补齐了多图组合生成领域的数据、任务分类、评测基准和基础模型。MICo-150K 为模型学习多图融合、身份保持和复杂场景组合提供了大规模训练资源;

MICo-Bench 和 Weighted-Ref-VIEScore 则让这类任务有了更专门的评测方式。总体来看,这篇论文的核心贡献是推动多图生成从“能参考一张图”走向“能理解并融合多张图”。

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

前两篇论文主要围绕多图编辑和多图生成展开,而《Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery》则从多维数据表示与恢复的角度切入,相关研究来自湖南师范大学数学与统计学院、计算与随机数学教育部重点实验室,以及南方科技大学统计与数据科学系。

论文主要研究的是多维数据恢复问题,例如图像修复、去噪、超分辨率和点云恢复。它关注的核心是:如何用更紧凑、更连续的方式表示高维数据,并从缺失、稀疏或退化的观测中恢复出高质量结果。

传统的张量环分解 TR 适合表示高阶张量,但通常依赖固定网格上的离散数据,难以处理连续信号或非规则采样数据。

为了解决这个问题,论文提出了 TRFD,也就是张量环函数分解,用隐式神经表示 INR 来参数化张量因子,使模型可以从连续坐标中生成张量表示。这样一来,方法不仅能处理常规网格数据,也能处理点云这类非网格数据。

不过,直接用 INR 学习张量因子会遇到一个问题:模型容易先学习低频内容,而对细节纹理、边缘结构等高频信息建模不足。

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

论文地址:https://arxiv.org/pdf/2603.01034v2

论文通过频域分析指出,张量环因子的频率特性会直接影响最终恢复结果的频率表现,因此如果因子本身缺少高频成分,恢复出的图像或点云也会缺少细节。雷峰网

针对这一问题,论文提出了 RepTRFD,也就是重参数化张量环函数分解。它把每个张量环因子表示成“可学习的潜在张量”和“固定基”的结构化组合,从而改善训练动态,让模型更容易学习高频细节。同时,论文还给出了固定基的初始化方法,并证明了模型的 Lipschitz 连续性,以保证训练过程更加稳定。

这篇论文的亮点在于,它不是单纯提高一个视觉任务的效果,而是从张量表示和频率学习的角度改进多维数据恢复框架。

方法既保留了张量环分解紧凑、高效的优势,又通过 INR 获得了连续建模能力,再通过重参数化增强了高频细节恢复能力。实验表明,RepTRFD 在图像修复、去噪、超分辨率和点云恢复等任务上整体优于已有方法,并且在相近计算量下取得了更好的恢复质量。

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

在多维数据恢复之外,《SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control》又回到图像编辑场景,但它关注的重点是编辑过程中的精细控制能力,相关研究来自马里兰大学和 Adobe 研究院。

论文主要研究的是指令式图像编辑中的“连续可控”问题,也就是让用户不仅能用文字告诉模型要改什么,还能像调节滑杆一样精确控制每个编辑指令的强弱。

现有的图像编辑模型通常会把指令一次性完整执行,例如“把头发变卷”“让人物微笑”“把背景换成夜晚”。但用户很难控制这些变化到底要多强,是轻微微笑还是大笑,是稍微变卷还是非常卷。尤其当一个提示词里包含多个编辑要求时,模型往往缺少对单个指令的独立控制能力。

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

论文地址:https://arxiv.org/pdf/2511.09715v1

为了解决这个问题,论文提出了 SliderEdit 框架。它会把一个复杂编辑指令拆成多个子指令,并为每个子指令提供一个可调节的滑杆。

用户可以通过滑杆连续控制某个编辑效果的强度,甚至可以让某个效果被削弱、正常执行或进一步放大。这样一来,图像编辑就不再是“改或不改”的离散操作,而变成了更细腻、可交互的连续控制过程。

方法上,SliderEdit 的核心是利用现代多模态扩散 Transformer 中的指令相关 token 表示。作者发现,某些文本 token 会集中控制对应的视觉编辑效果,因此可以通过对这些 token 进行调节来控制编辑强度。

论文进一步提出 Partial Prompt Suppression 损失,让模型学习如何只抑制某一个子指令的视觉影响,同时保留其他编辑效果。它还使用轻量级的低秩适配器 LoRA,不需要为每个属性或概念单独训练一个新模型。

这篇论文的亮点在于,它把图像编辑从“固定强度的文字指令”推进到了“可连续调节的交互式编辑”。它不仅支持单个属性的强弱控制,也支持多指令场景下对不同编辑方向分别调节。

论文还将方法应用到 FLUX-Kontext 和 Qwen-Image-Edit 等先进图像编辑模型上,实验显示 SliderEdit 在编辑连续性、语义解耦、身份保持和用户可控性方面都有明显优势。

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

雷峰网原创文章,未经授权禁止转载。详情见转载须知

CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说