GAIR Paper 092：CVPR 2026 图像编辑趋势梳理：从参考一张图，到融合整个视觉世界

本文作者：郑佳美

2026-05-29 15:13

专题：CVPR 计算机视觉与模式识别会议

导语：复杂视觉关系成为生成模型的新考题。

GAIR Paper 092：CVPR 2026 图像编辑趋势梳理：从参考一张图，到融合整个视觉世界

复杂视觉关系成为生成模型的新考题。

作者丨郑佳美

编辑丨马晓宁

图像生成行业正在从“生成能力竞争”进入“可控能力竞争”。

过去，模型的核心价值主要体现在能否生成高质量、高清晰度、风格丰富的单张图像；而随着文生图、图生图和指令式编辑能力逐渐成熟，新的瓶颈开始显现：模型能否理解多张图片之间的关系，能否在不同视角和场景中保持同一对象的一致性，能否把多个参考来源自然融合到同一画面中，能否在数据缺失或退化时恢复可信细节，以及能否让用户精确控制每一次编辑的幅度。

这种变化也反映在 CVPR 2026 的相关研究中。越来越多工作开始从单张图像生成，转向多图关系建模、跨图像一致性保持、复杂场景组合、连续可控编辑和高质量视觉数据恢复。这说明图像生成和编辑的重点已经不只是“能不能生成”，而是模型能否在复杂约束下稳定理解对象、结构、关系和用户意图。

更深层来看，视觉生成模型正在从单次输出工具走向复杂视觉系统。它需要同时处理身份保持、结构对齐、语义融合、细节恢复和人机交互等问题。

也正因为如此，当前研究的重点正在从单张图像质量，转向多图一致性、组合泛化能力、底层数据表示以及精细化控制能力。谁能更好地把这些能力统一起来，谁就更接近下一阶段真正可用、可信、可控的视觉生成模型。

当图像模型不再只会「生成一张图」

《GroupEditing: Edit Multiple Images in One Go》关注的是“多图一致编辑”问题，相关研究来自香港科技大学、清华大学、上海交通大学和悉尼科技大学。论文主要研究如何对一组相关图片进行统一修改，并保证编辑后的结果在外观、身份、结构和语义上保持一致。雷峰网(公众号：雷峰网)

以往的图像编辑方法大多针对单张图片，如果把同一个指令分别应用到多张相关图片上，很容易出现编辑效果不统一的问题。比如同一个物体在不同视角或姿态下，颜色、形状或身份特征可能会被改得不一致。

针对这一问题，论文提出了 GroupEditing 框架，把一组静态图片看作“伪视频帧”，借助视频生成模型本身擅长保持连续帧一致性的特点，来提升多张图片之间的编辑一致性。

论文地址：https://arxiv.org/pdf/2603.22883v3

同时，论文还引入 VGGT 来提取图片之间的几何对应关系，并设计了 Ge-RoPE 和 Identity-RoPE 两个模块。前者帮助不同图片中的对应区域更好对齐，后者帮助同一对象在不同图片中保持身份和外观一致。也就是说，模型不仅知道“要改什么”，还能够更好地判断“不同图片中哪里是同一个对象或区域”。

这篇论文的亮点在于，它将图像编辑从单张图片扩展到一组相关图片，适用于商品多角度图、角色形象保持、同一物体不同视角编辑等场景。

方法上，它巧妙地结合了视频模型的一致性能力和显式几何对齐信息，使多图编辑结果更加稳定、统一。实验结果也表明，GroupEditing 在编辑质量、语义一致性和跨图像一致性方面都优于已有方法。

在多图一致编辑的基础上，《MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition》进一步关注多图组合生成问题，相关研究来自香港理工大学、清华大学、中山大学和 OPPO 研究院。

论文主要研究的是多图组合生成，也就是给模型多张参考图片，让它根据文本指令把这些图片中的人物、物体、服装或场景自然地组合到一张新图中，同时保持身份一致、语义合理和画面协调。

这项任务的难点在于，模型不仅要理解每张参考图中的关键内容，还要把多个来源的信息融合到同一场景里。例如，把一个人物、一件衣服、几个物体和一个背景组合成一张完整图片时，既不能丢失参考图中的身份特征，也不能让画面看起来像简单拼贴。

为了解决训练数据不足的问题，论文提出了 MICo-150K 数据集，系统覆盖 3 大类、7 个子任务和 27 种细粒度组合类型，并加入 De&Re 任务，即先把真实复杂图像拆解成组件，再重新组合。

在数据构建上，作者先收集并清洗人物、物体、服装和场景等高质量源图，再用 GPT-4o 生成多图组合指令，并通过 Nano-Banana 合成目标图像。

之后，论文使用 QwenVL2.5-72B、ArcFace 和人工筛选来检查生成结果，确保参考图片中的关键内容被正确保留，最终形成面向多图组合生成的大规模高质量数据集。

论文地址：https://arxiv.org/pdf/2512.07348v1

论文还提出了 MICo-Bench 评测基准和 Weighted-Ref-VIEScore 指标，用来更全面地评估多图组合生成的效果。实验中，作者用 MICo-150K 微调了多个开源模型，结果显示这些模型的多图组合能力都有明显提升。

其中基于 Qwen-Image-Edit 微调得到的 Qwen-MICo，在三图组合任务上接近甚至优于 Qwen-Image-2509，同时还能支持任意数量的多图输入。

这篇论文的亮点在于，它不是单纯提出一个新模型，而是系统补齐了多图组合生成领域的数据、任务分类、评测基准和基础模型。MICo-150K 为模型学习多图融合、身份保持和复杂场景组合提供了大规模训练资源；

MICo-Bench 和 Weighted-Ref-VIEScore 则让这类任务有了更专门的评测方式。总体来看，这篇论文的核心贡献是推动多图生成从“能参考一张图”走向“能理解并融合多张图”。

前两篇论文主要围绕多图编辑和多图生成展开，而《Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery》则从多维数据表示与恢复的角度切入，相关研究来自湖南师范大学数学与统计学院、计算与随机数学教育部重点实验室，以及南方科技大学统计与数据科学系。

论文主要研究的是多维数据恢复问题，例如图像修复、去噪、超分辨率和点云恢复。它关注的核心是：如何用更紧凑、更连续的方式表示高维数据，并从缺失、稀疏或退化的观测中恢复出高质量结果。

传统的张量环分解 TR 适合表示高阶张量，但通常依赖固定网格上的离散数据，难以处理连续信号或非规则采样数据。

为了解决这个问题，论文提出了 TRFD，也就是张量环函数分解，用隐式神经表示 INR 来参数化张量因子，使模型可以从连续坐标中生成张量表示。这样一来，方法不仅能处理常规网格数据，也能处理点云这类非网格数据。

不过，直接用 INR 学习张量因子会遇到一个问题：模型容易先学习低频内容，而对细节纹理、边缘结构等高频信息建模不足。

论文地址：https://arxiv.org/pdf/2603.01034v2

论文通过频域分析指出，张量环因子的频率特性会直接影响最终恢复结果的频率表现，因此如果因子本身缺少高频成分，恢复出的图像或点云也会缺少细节。雷峰网

针对这一问题，论文提出了 RepTRFD，也就是重参数化张量环函数分解。它把每个张量环因子表示成“可学习的潜在张量”和“固定基”的结构化组合，从而改善训练动态，让模型更容易学习高频细节。同时，论文还给出了固定基的初始化方法，并证明了模型的 Lipschitz 连续性，以保证训练过程更加稳定。

这篇论文的亮点在于，它不是单纯提高一个视觉任务的效果，而是从张量表示和频率学习的角度改进多维数据恢复框架。

方法既保留了张量环分解紧凑、高效的优势，又通过 INR 获得了连续建模能力，再通过重参数化增强了高频细节恢复能力。实验表明，RepTRFD 在图像修复、去噪、超分辨率和点云恢复等任务上整体优于已有方法，并且在相近计算量下取得了更好的恢复质量。

在多维数据恢复之外，《SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control》又回到图像编辑场景，但它关注的重点是编辑过程中的精细控制能力，相关研究来自马里兰大学和 Adobe 研究院。

论文主要研究的是指令式图像编辑中的“连续可控”问题，也就是让用户不仅能用文字告诉模型要改什么，还能像调节滑杆一样精确控制每个编辑指令的强弱。

现有的图像编辑模型通常会把指令一次性完整执行，例如“把头发变卷”“让人物微笑”“把背景换成夜晚”。但用户很难控制这些变化到底要多强，是轻微微笑还是大笑，是稍微变卷还是非常卷。尤其当一个提示词里包含多个编辑要求时，模型往往缺少对单个指令的独立控制能力。

论文地址：https://arxiv.org/pdf/2511.09715v1

为了解决这个问题，论文提出了 SliderEdit 框架。它会把一个复杂编辑指令拆成多个子指令，并为每个子指令提供一个可调节的滑杆。

用户可以通过滑杆连续控制某个编辑效果的强度，甚至可以让某个效果被削弱、正常执行或进一步放大。这样一来，图像编辑就不再是“改或不改”的离散操作，而变成了更细腻、可交互的连续控制过程。

方法上，SliderEdit 的核心是利用现代多模态扩散 Transformer 中的指令相关 token 表示。作者发现，某些文本 token 会集中控制对应的视觉编辑效果，因此可以通过对这些 token 进行调节来控制编辑强度。

论文进一步提出 Partial Prompt Suppression 损失，让模型学习如何只抑制某一个子指令的视觉影响，同时保留其他编辑效果。它还使用轻量级的低秩适配器 LoRA，不需要为每个属性或概念单独训练一个新模型。

这篇论文的亮点在于，它把图像编辑从“固定强度的文字指令”推进到了“可连续调节的交互式编辑”。它不仅支持单个属性的强弱控制，也支持多指令场景下对不同编辑方向分别调节。

论文还将方法应用到 FLUX-Kontext 和 Qwen-Image-Edit 等先进图像编辑模型上，实验显示 SliderEdit 在编辑连续性、语义解耦、身份保持和用户可控性方面都有明显优势。

GAIR Paper 092：CVPR 2026 图像编辑趋势梳理：从参考一张图，到融合整个视觉世界

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

郑佳美

编辑

发私信

当月热门文章