0
| 本文作者: 陈淑瑜 | 2026-05-29 10:53 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:AIGC Studio
原文链接:https://mp.weixin.qq.com/s/pUXcvlhrYNbc2Myxa4zdZg?scene=1&click_id=33
虚拟试穿一直是电商与内容创作的刚需,但传统视频虚拟换衣技术,长期卡在服装细节糊、背景闪、模型重、数据差四大痛点。2026 年 CVPR 最新接收的 KeyTailor,用一套关键帧驱动细节注入方案,不改动 DiT 主干、不加参、不降速,直接把服装动态细节、背景帧间一致性拉满,搭配自研 15K 高清数据集 ViT-HD,全面超越现有 SOTA,让高清、真实、流畅的视频虚拟试穿成为现实。


当前基于DiT的视频试穿方法虽能生成连贯视频,但在细粒度服装动态建模与背景时序一致性上仍存在明显短板,且常因引入额外交互模块导致计算开销激增。为此,团队创新性地提出"关键帧驱动细节注入"策略:利用关键帧天然包含前景动态与背景一致性的特性,通过指令引导采样筛选高信息量帧,并设计服装细节增强(GDDE)与背景协同优化(CBDO)双模块,将关键帧中的细粒度特征高效蒸馏至生成过程。该设计在不改动DiT主干的前提下实现质量跃升,兼具高效性与可扩展性。
KeyTailor的总体框架。 KeyTailor 将参考服装图像 Iref、源视频 Vin、其相应的不可知视频 Vagn、不可知掩模 Magn 和姿势表示 P 作为输入。这些输入被编码为与服装相关的潜在变量 Lg,背景相关潜伏 Lbg、姿势潜伏 Lp 和调整大小的蒙版 Lm。具体来说,与服装相关的潜在变量是由 GDDE 生成的模块,CBDO 模块的背景相关潜在变量,以及可训练的姿势引导器的姿势潜在变量。随后,所有这些潜在信息与噪声潜在信息一起被注入 N 个 DiT 块中,以生成最终的试戴视频令牌,然后由基于 VAE 的解码器进行解码视频解码器合成输出视频。
KeyTailor 核心思路很直接:关键帧里藏着前景动态和背景一致性的全部信息,不用改 DiT 架构,把关键帧信息高效注入即可。整体由三大核心模块构成,轻量、高效、效果强。

团队同步发布大规模高清数据集 ViT-HD: 15,070 个高质量视频; 分辨率 810×1080; 覆盖上装、下装、全身装,场景丰富、主体清晰、曝光正常。 高质量数据 + 强模型,从根源解决泛化不足问题,让虚拟试穿适配更多服装与场景。


在 VFID、SSIM、LPIPS 等核心指标上,KeyTailor 显著领先:
KeyTailor+ViT-HD,以关键帧驱动细节注入为核心,用极简、轻量的方案,一次性解决虚拟试穿的细节、背景、效率、数据四大难题。作为 CVPR 2026 收录的重磅成果,它将直接赋能电商虚拟试衣、短视频穿搭创作、数字人服装替换等场景,降低高清真实视频生成门槛,推动 AIGC 在商业场景的深度落地。
本专题其他文章