可灵21项成果入选 CVPR 2026｜以视觉智能探索 AI 创作新边界

本文作者：陈淑瑜

2026-06-04 14:26

专题：CVPR 计算机视觉与模式识别会议

导语：快手可灵AI团队共有21篇论文入选本届大会，其中1篇入选AWARD CANDIDATE，6篇入选HIGHLIGHT。

来源：公众号“可灵技术”

原文链接：https://mp.weixin.qq.com/s/kR6VUwldmDC1RuDRJdfFDA

锚定视觉前沿，贯通理解与生成，以下为您逐一呈现入选论文：

论文链接：

https://openaccess.thecvf.com/content/CVPR2026/papers/Chen_alphaMatte4K__muMatting_Dataset_and_Model_for_Ultra-Micro_Precision_Alpha_CVPR_2026_paper.pdf

论文简介：
高分辨率人体视频抠图要求模型准确预测半透明区域的 alpha 遮罩，同时保持跨帧稳定。但这一任务长期受到两个问题限制：一是高质量 4K 标注数据不足，二是高分辨率下计算成本较高。我们提出 Matte4K 和 Matting，从数据和模型两个层面解决问题。Matte4K 是一个大规模 4K 人体视频抠图数据集，通过基于物理的渲染获得更精确的标注和更自然的物理一致性。Matting 则是一个分辨率无关的两阶段视频抠图框架：先进行粗略遮罩定位，再通过稀疏 3D 卷积和时间调制器细化关键区域。这样既能提升细节精度，也能增强时序一致性。这项工作为高分辨率人体视频抠图提供了更扎实的数据基础和模型方案，也进一步推动了该技术在真实视频编辑场景中的应用。

论文链接：

https://arxiv.org/pdf/2511.10555

论文简介：视觉风格生成常常依赖复杂提示词、参考图像或额外微调，使用门槛较高，也不容易稳定复现。我们提出 CoTyle，关注一个新的问题：能否只用一个数值编码，就控制并生成一种稳定、可复现的新风格。围绕这一任务，我们先从图像集合中学习离散风格码本，再训练自回归风格生成器建模风格分布。推理时，一个数值风格编码会被映射成唯一的风格嵌入，并进一步引导文本到图像扩散模型生成对应风格图像。相比传统方式，CoTyle 的输入更简单，风格空间更丰富，也更容易复现。它的意义在于，把复杂风格控制压缩成一个可操作、可扩展的编码问题，为风格化图像生成提供了一种更轻量、更灵活的方式。

论文链接：

https://arxiv.org/pdf/2603.25527

论文简介：视频生成模型的发展高度依赖训练数据，但好数据并不容易获得。我们发现，视频数据中存在一个普遍矛盾：画质高的视频往往运动不够丰富，运动丰富的视频又可能画质不够好。我们将其称为“运动-视觉质量困境”。围绕这一问题，我们提出 TQD，即时间步感知质量解耦。我们通过分析视频扩散模型的学习过程发现，不同类型数据在不同时间步上发挥的作用并不相同：运动丰富的数据更适合在较高时间步发挥作用，高视觉质量数据则更适合在较低时间步提供细节学习信号。因此，我们通过调整采样分布，让不同数据在更合适的训练阶段被使用。TQD 的意义在于，它不再把“完美数据”作为唯一前提，而是更充分地利用不平衡数据，为视频生成训练提供了更现实、更高效的数据使用方式。

论文链接：

https://arxiv.org/pdf/2603.22271

论文简介：视频超分辨率不仅要求画面更清晰，也要求生成过程足够高效。扩散模型虽然带来了更好的画质，但多步采样的计算成本较高，限制了实际使用。我们提出 DUO-VSR，核心目标就是在保证视觉质量的同时提升生成效率。它采用三阶段训练框架，并通过双流蒸馏策略，将分布匹配蒸馏与对抗性监督结合起来。一方面，模型通过蒸馏学习更高效的生成路径；另一方面，对抗性监督帮助模型保留更自然、更真实的视觉细节。最后，我们还加入偏好引导精炼，使结果更符合人眼观感。DUO-VSR 的价值在于，它让“一步生成”的视频超分不仅更快，也能保持较高画质，为视频增强在真实应用中的落地提供了更实用的方案。

论文链接：

https://arxiv.org/pdf/2512.21514

论文简介：强化学习可以提升图像生成质量，但我们观察到，模型在训练后期容易出现“越训越像”的问题：图像质量可能提高，但创造性和多样性下降。我们认为，这背后既有奖励设计的问题，也有生成动态的问题。传统 GRPO 更关注单张图像的质量奖励，容易让模型集中到少数高奖励模式；同时，正则化机制没有充分保护早期去噪阶段的多样性。针对这一问题，我们从两个层面进行改进：在奖励层面，引入基于语义分组的分布级创造力奖励；在生成层面，设计结构感知正则化，在早期阶段更好地保留多样性。实验表明，在保持生成质量的同时，我们的方法能够明显提升语义多样性。这项工作关注的不是单纯“生成更好看”，而是在质量与创造力之间建立更合理的平衡。

论文链接：

https://arxiv.org/pdf/2510.22319

论文简介：GRPO 在生成模型后训练中应用广泛，但我们发现，现有框架中的重要性比率裁剪机制存在系统性偏移，可能导致隐式过度优化。也就是说，代理奖励还在上升，但图像质量、文本对齐等真正重要的指标却开始下降。为解决这一问题，我们提出 GRPO-Guard，对现有 GRPO 框架进行增强。它通过比率归一化，让重要性比率更加平衡，保证裁剪机制能够真正限制有害更新；同时通过梯度重加权，避免某些时间步区域出现过度优化。GRPO-Guard 的意义在于，让强化学习后训练过程更加稳定可靠。它不是简单追求更高奖励，而是关注奖励提升背后生成质量是否真正同步提升，从而提高生成模型后训练的可用性。

论文链接：

https://arxiv.org/html/2602.06959v1/

论文简介：电影级视频创作往往需要精准控制场景、主体和镜头运动，但真实拍摄需要搭建布景，成本高、周期长。我们提出 CineScene，希望用生成模型降低电影级场景创作的门槛。它面向一个更具体的任务：给定静态环境的多张图像，生成包含动态主体、场景一致且摄像机轨迹可控的视频。为实现这一目标，我们利用隐式 3D 感知场景表示，把静态场景中的空间先验注入到预训练文本到视频模型中，使模型能够在理解场景结构的基础上生成动态内容。我们还使用 Unreal Engine 5 构建场景解耦数据集，解决训练数据不足的问题。CineScene 的意义在于，它让 AI 视频生成更接近专业影视制作需求，不只是生成画面，而是生成可控镜头、稳定场景和动态主体共同构成的电影化视频。

论文链接：

https://arxiv.org/pdf/2511.21395

论文简介：这项工作关注的是 AI 视觉推理中的一个核心问题：模型能否像人一样，在“脑海中”完成抽象视觉思考，而不是依赖外部工具进行辅助推理。围绕这一方向，我们提出了 Monet，一个面向多模态大语言模型的训练框架。它让模型能够直接在潜在视觉空间中进行推理，并生成连续嵌入向量作为“中间视觉思维”。在训练上，我们构建了 Monet-SFT-125K 数据集，并设计 VLPO 强化学习方法，进一步提升模型在潜在空间中的视觉推理能力。最终，Monet-7B 在真实世界感知、推理和抽象视觉任务上都取得了明显提升。这项工作也说明，让模型具备更接近人类的视觉思考能力，可能不只依赖外部工具调用，更需要让模型在自身表示空间中学会“看见”和“思考”。

论文链接：

https://arxiv.org/pdf/2512.03041

论文简介：单镜头视频生成已经取得了很大进展，但真正的叙事视频往往由多个镜头组成，需要镜头切换、叙事连贯、主体一致和场景控制。我们提出 MultiShotMaster，正是面向多镜头视频生成这一更接近真实创作流程的任务。它通过两种 RoPE 变体扩展预训练单镜头模型：多镜头叙事 RoPE 用于处理镜头切换和时间顺序，时空位置感知 RoPE 用于注入参考信息和 grounding 信号。为了支撑训练，我们还建立了自动化数据标注流程，提取多镜头视频、描述文本、参考图像和跨镜头定位信息。MultiShotMaster 的意义在于，它让视频生成从“生成一个片段”进一步走向“组织一段叙事”，能够支持镜头数量、镜头时长、主体运动和场景背景的灵活控制，为 AI 视频创作提供更完整的镜头语言能力。

论文链接：

https://arxiv.org/pdf/2604.00503

论文简介：开放集目标检测希望模型识别固定类别之外的新物体，但文本提示往往难以准确描述复杂视觉概念，稀有类别的图文数据也相对不足。我们提出 PET-DINO，一个同时支持文本提示和视觉提示的通用检测器。它通过 AFVPG 模块生成更易对齐视觉概念的提示表示，并结合 IBP 和 DMD 两种训练策略，让模型同时学习多种提示路径。PET-DINO 的意义在于，它让开放集检测从单纯依赖文本类别，进一步走向文本与视觉提示协同，在零样本检测、复杂物体识别和专业场景中具备更好的泛化能力。

论文链接：

https://arxiv.org/pdf/2603.07561

论文简介：个性化概念定制已经能够生成较高保真的人物、物体或风格，但一个常见问题是：模型在学习新概念时，可能会破坏原本的生成能力。我们提出 PureCC，希望让概念定制变得更“干净”。它的核心思路是把目标概念学习和原始模型能力保持进行解耦：一方面学习用户指定的新概念，另一方面尽量保留原始模型的条件预测能力。为此，我们设计了双分支训练流程，并引入自适应引导尺度 λ⋆，动态平衡定制保真度和模型保持。PureCC 的意义在于，它不只是追求“像不像某个定制对象”，也关注模型在定制之后是否仍然稳定、通用、可控。这对于个性化生成真正走向实际应用非常关键。

论文链接：

https://arxiv.org/pdf/2509.24897

论文简介：统一视觉理解与视觉生成，是通向通用 AI 的重要方向。但一个容易被忽略的问题是：把两种能力放进同一个模型，并不等于它们真的能够互相促进。围绕这一问题，我们提出了 RealUnify，希望回答“统一模型是否真正实现了理解与生成的协同”。RealUnify 设计了“理解增强生成”和“生成增强理解”两类任务，既考察模型能否用推理能力指导图像生成，也考察模型能否借助生成式模拟完成视觉理解。我们还引入双阶段评估协议，用来判断模型的失败究竟来自基础能力不足，还是协同机制没有真正建立。通过对多个领先统一模型和专业基线的评测，我们发现，当前模型距离真正的双向协同仍有差距。这项工作为未来统一模型的发展提供了更清晰的评估坐标。

论文链接：

https://arxiv.org/pdf/2603.21002

论文简介：高分辨率视频生成面临一个直接矛盾：用户希望画面更清晰，但推理速度会显著变慢。很多加速方法虽然提高了效率，却容易损失原始模型的布局、语义和运动风格。我们提出 SURF，希望在生成效率和模型“原本味道”之间取得平衡。它将生成过程分为预览和精炼两个阶段：先快速生成低分辨率预览，再通过 Refiner 进行高分辨率增强。我们发现，直接降低推理分辨率会破坏模型原有特征，因此设计了噪声重移位策略，让模型在初始阶段保留原始分辨率信息，后续再切换到低分辨率以提升效率。SURF 的意义在于，它不是简单压缩生成流程，而是在尽量保持模型原始能力和风格的前提下，加速高分辨率视频生成。

论文链接：

https://arxiv.org/pdf/2512.12675

论文简介：主体驱动图像生成已经可以处理多个主体，但在真实复杂场景中，一个更关键的问题是：当输入里有多个候选主体时，模型能否准确识别用户真正想生成的那个主体。我们提出 Scone，重点补足这一“区分能力”。Scone 将理解专家和生成专家结合起来，让理解模块先承担语义判断和信息传递的角色，再引导生成模块在减少干扰的同时保持目标主体身份。训练上，我们采用两阶段策略：先学习多主体组合能力，再通过语义对齐和注意力掩码增强区分能力。我们还提出 SconeEval，用于专门评估组合与区分表现。Scone 的价值在于，它让主体生成不只是“把多个东西组合在一起”，而是能够在复杂输入中理解用户意图，并准确生成指定对象。

论文链接：

https://arxiv.org/pdf/2601.04033v2

论文简介：视频生成质量评估不能只看画质、运动和文本对齐，还要关注画面结构是否合理。很多生成视频中的问题并不是“不清晰”，而是物体外观异常、交互关系错误、结构发生失真。我们提出 REACT，专门用于评估生成视频中的结构失真。它会对视频帧进行推理，识别可能的问题区域，并给出分数和归因标签。为训练这一模型，我们构建了大规模人类偏好数据集，并建立结构失真分类体系，同时结合思维链合成流程补充训练数据。REACT 采用监督微调和强化学习两阶段训练，使模型既具备领域知识，也能更贴近人类偏好。它的价值在于，为视频生成提供了更细粒度、更可解释的质量评估工具，帮助模型不仅生成“好看的视频”，也生成结构更合理的视频。

论文链接：

https://arxiv.org/pdf/2512.07831

论文简介：视频生成模型正在变得越来越强，但多数模型仍然依赖单一条件输入，例如只看文本、姿态或深度中的某一种。这会限制模型对真实物理世界的整体理解。我们提出 UnityVideo，希望让视频生成模型能够同时理解多种模态信息，包括分割掩码、人体骨架、DensePose、光流和深度图等。为了统一这些不同模态和训练方式，我们设计了动态加噪机制、模态切换器和上下文学习器，并构建了包含 130 万样本的大规模统一数据集。UnityVideo 的重点不只是“支持更多输入条件”，而是让模型学会把多种物理线索放在一起理解。实验结果也表明，这种统一学习方式能够提升视频质量、一致性和零样本泛化能力，让生成结果更符合真实世界的结构约束。

论文链接：

https://arxiv.org/pdf/2512.19686

论文简介：思维链机制已经被证明可以提升模型生成能力，但我们发现，当前模型的“思考”更多围绕文本提示展开，对视觉上下文的关注仍然不够。这会带来一个实际问题：生成过程中人物身份、物体属性、画面风格等关键信息容易发生偏移。针对这一点，我们把视觉上下文一致性引入模型推理过程，让模型在生成前先明确“哪些视觉元素必须保持一致”，再在生成过程中不断检查和修正。具体来说，我们设计了自适应视觉规划和迭代式视觉校正两个机制：前者生成视觉检查清单，后者引导模型进行反思和优化。通过监督微调和 Flow-GRPO 强化学习，我们进一步强化模型保持视觉一致性的能力。这项工作强调的是，多模态生成不能只“听懂文字”，还要真正“记住画面”。

论文链接：

https://arxiv.org/pdf/2511.16669v2

论文简介：语言模型已经在很多实际场景中发挥价值，但视频生成的应用还远不止娱乐内容。我们关注到，视频天然适合表达动态过程和物理操作，例如教学、演示、预测下一步动作等。基于这一观察，我们提出“视频作为答案的下一个事件预测”任务，让模型不再只是用文字回答“接下来会发生什么”，而是直接生成一段动态视频作为答案。这意味着从“讲述”走向“展示”。为实现这一目标，我们提出 VANS，通过强化学习将视觉语言模型和视频扩散模型对齐。视觉语言模型负责理解输入并生成可视化描述，视频扩散模型负责把描述转化为符合上下文的视频。我们还构建了 VANS-Data-100K 数据集。VANS 的意义在于，它拓展了视频生成的使用方式，让视频成为一种更直观、更具表现力的回答形式。

论文链接：

https://arxiv.org/pdf/2601.22275

论文简介：长视频生成对模型的上下文建模能力提出了更高要求，但传统注意力机制的二次复杂度会带来巨大计算压力。我们提出 VMonarch，核心是利用视频 DiT 中天然存在的稀疏时空注意力模式，用 Monarch 矩阵进行高效表示和计算。简单来说，我们希望让模型不再对所有时空位置进行同等计算，而是更高效地捕捉真正重要的帧内和帧间关系。VMonarch 通过时空 Monarch 分解建模视频相关性，并结合重计算策略和在线熵算法，提升长序列下Monarch注意力的稳定性与计算效率。实验表明，它在保持生成质量的同时，大幅降低注意力计算量，并显著加速长视频注意力计算。这项工作从新角度探索了视频生成底层效率问题，为更长、更复杂的视频生成提供了基础支撑。

论文链接：

https://arxiv.org/pdf/2511.23386

论文简介：统一多模态模型需要一个关键能力：用同一套表示同时支持理解、生成和重建。过去很多方法需要使用不同编码器分别处理这些任务，难以真正实现统一。我们提出 VQRAE，探索在单一分词器中同时产生用于图像理解的连续语义特征，以及用于视觉生成的离散令牌。具体来说，我们在预训练视觉基础模型之上构建对称 ViT 解码器，并通过两阶段训练学习高维语义 VQ 码本。这样的设计既能保留语义理解能力，也能支持生成和细粒度重建。我们还发现，高维码本对语义量化非常关键，当码本维度达到 1536 时，可以实现很高的利用率。VQRAE 的价值在于，它为统一模型提供了一种更兼顾理解与生成的视觉表示方式，也为未来自回归多模态模型的扩展提供了基础。

论文链接：

https://arxiv.org/pdf/2602.03796

论文简介：人体运动控制是视频生成中的重要能力，但现有方法通常依赖 2D 姿态或显式 3D 参数模型。前者难以支持新视角，后者又容易受到重建误差影响，限制视频生成模型自身的 3D 感知能力。我们提出的 3DiMo，尝试从更符合生成模型特点的 3D 感知视角重新理解运动控制。相比直接使用外部重建结果，我们采用隐式、视角无关的运动表征，让运动信息自然对齐视频生成器已有的空间先验。模型会将驱动帧提炼为紧凑的隐式运动编码，并注入到预训练视频生成模型中。通过多视角监督和几何监督，3DiMo 能够学习更真实的 3D 空间运动理解。它的意义在于，让人物运动控制不再只是“照着姿态画动作”，而是让模型真正理解动作在三维空间中的变化。