您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026|视频虚拟试穿新 SOTA!KeyTailor 虚拟换衣告别假质感,15K 高清数据集 ViT-HD 已经开源。

本文作者: 陈淑瑜   2026-05-29 10:53 专题:CVPR 计算机视觉与模式识别会议
导语:026 年 CVPR 最新接收的 KeyTailor,用一套关键帧驱动细节注入方案,不改动 DiT 主干、不加参、不降速,直接把服装动态细节、背景帧间一致性拉满

来源:AIGC Studio

原文链接:https://mp.weixin.qq.com/s/pUXcvlhrYNbc2Myxa4zdZg?scene=1&click_id=33

虚拟试穿一直是电商与内容创作的刚需,但传统视频虚拟换衣技术,长期卡在服装细节糊、背景闪、模型重、数据差四大痛点。2026 年 CVPR 最新接收的 KeyTailor,用一套关键帧驱动细节注入方案,不改动 DiT 主干、不加参、不降速,直接把服装动态细节、背景帧间一致性拉满,搭配自研 15K 高清数据集 ViT-HD,全面超越现有 SOTA,让高清、真实、流畅的视频虚拟试穿成为现实。

CVPR 2026|视频虚拟试穿新 SOTA!KeyTailor 虚拟换衣告别假质感,15K 高清数据集 ViT-HD 已经开源。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/abs/2512.20340
  • 主页:https://huggingface.co/datasets/zijiyingcai/ViT-HD
  • 数据集:https://huggingface.co/datasets/zijiyingcai/ViT-HD

unsetunset论文介绍unsetunset

CVPR 2026|视频虚拟试穿新 SOTA!KeyTailor 虚拟换衣告别假质感,15K 高清数据集 ViT-HD 已经开源。

当前基于DiT的视频试穿方法虽能生成连贯视频,但在细粒度服装动态建模与背景时序一致性上仍存在明显短板,且常因引入额外交互模块导致计算开销激增。为此,团队创新性地提出"关键帧驱动细节注入"策略:利用关键帧天然包含前景动态与背景一致性的特性,通过指令引导采样筛选高信息量帧,并设计服装细节增强(GDDE)与背景协同优化(CBDO)双模块,将关键帧中的细粒度特征高效蒸馏至生成过程。该设计在不改动DiT主干的前提下实现质量跃升,兼具高效性与可扩展性。

unsetunset方法概述unsetunset

CVPR 2026|视频虚拟试穿新 SOTA!KeyTailor 虚拟换衣告别假质感,15K 高清数据集 ViT-HD 已经开源。KeyTailor的总体框架。 KeyTailor 将参考服装图像 Iref、源视频 Vin、其相应的不可知视频 Vagn、不可知掩模 Magn 和姿势表示 P 作为输入。这些输入被编码为与服装相关的潜在变量 Lg,背景相关潜伏 Lbg、姿势潜伏 Lp 和调整大小的蒙版 Lm。具体来说,与服装相关的潜在变量是由 GDDE 生成的模块,CBDO 模块的背景相关潜在变量,以及可训练的姿势引导器的姿势潜在变量。随后,所有这些潜在信息与噪声潜在信息一起被注入 N 个 DiT 块中,以生成最终的试戴视频令牌,然后由基于 VAE 的解码器进行解码视频解码器合成输出视频。

KeyTailor 核心思路很直接:关键帧里藏着前景动态和背景一致性的全部信息,不用改 DiT 架构,把关键帧信息高效注入即可。整体由三大核心模块构成,轻量、高效、效果强。

  1. 指令引导关键帧采样(IKS):精准挑 “有用帧” 不随机采样,而是用视觉语言模型解析视角 / 动作指令,生成标准姿态锚点;计算每帧与锚点的动作差异、服装占比,排序筛选出覆盖多角度、多动作、低冗余的关键帧,为后续细节提取打下基础。
  2. 服装细节增强(GDDE):褶皱、纹理全还原 先用单图试穿模型把目标服装注入初始帧,再从关键帧蒸馏动态细节(褶皱、背面纹理、光影变化),强化服装 latent,让衣物贴合肢体、动态自然、细节饱满。
  3. 协同背景优化(CBDO):背景稳、不跳变 全局分支抓背景整体结构,局部分支从关键帧补细节;加权融合后输出稳定、清晰、帧间一致的背景 latent,彻底解决背景闪烁、模糊问题。
  4. 轻量融合:无缝适配 DiT 把增强服装 latent、优化背景 latent,和姿态、掩码、噪声 latent 高效融合,注入 DiT 的 LoRA 适配器。全程不改 DiT 主干、不增参、不拖慢速度,兼顾质量与效率。

数据集介绍

CVPR 2026|视频虚拟试穿新 SOTA!KeyTailor 虚拟换衣告别假质感,15K 高清数据集 ViT-HD 已经开源。

团队同步发布大规模高清数据集 ViT-HD: 15,070 个高质量视频; 分辨率 810×1080; 覆盖上装、下装、全身装,场景丰富、主体清晰、曝光正常。 高质量数据 + 强模型,从根源解决泛化不足问题,让虚拟试穿适配更多服装与场景。

unsetunset实验结果unsetunset

CVPR 2026|视频虚拟试穿新 SOTA!KeyTailor 虚拟换衣告别假质感,15K 高清数据集 ViT-HD 已经开源。
CVPR 2026|视频虚拟试穿新 SOTA!KeyTailor 虚拟换衣告别假质感,15K 高清数据集 ViT-HD 已经开源。

在 VFID、SSIM、LPIPS 等核心指标上,KeyTailor 显著领先:

  • 服装细节:褶皱、纹理、动态形变精准还原,质感真实;
  • 背景一致性:无闪烁、无跳变、细节清晰;
  • 效率:轻量设计,推理速度快、成本低;
  • 泛化:复杂姿态、多样服装、不同场景均稳定输出高质量结果。

unsetunset总结unsetunset

KeyTailor+ViT-HD,以关键帧驱动细节注入为核心,用极简、轻量的方案,一次性解决虚拟试穿的细节、背景、效率、数据四大难题。作为 CVPR 2026 收录的重磅成果,它将直接赋能电商虚拟试衣、短视频穿搭创作、数字人服装替换等场景,降低高清真实视频生成门槛,推动 AIGC 在商业场景的深度落地。


CVPR 2026|视频虚拟试穿新 SOTA!KeyTailor 虚拟换衣告别假质感,15K 高清数据集 ViT-HD 已经开源。

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说