CVPR 2026｜视频虚拟试穿新 SOTA！KeyTailor 虚拟换衣告别假质感，15K 高清数据集 ViT-HD 已经开源。

本文作者：陈淑瑜

2026-05-29 10:53

导语：026 年 CVPR 最新接收的 KeyTailor，用一套关键帧驱动细节注入方案，不改动 DiT 主干、不加参、不降速，直接把服装动态细节、背景帧间一致性拉满

来源：AIGC Studio

原文链接：https://mp.weixin.qq.com/s/pUXcvlhrYNbc2Myxa4zdZg?scene=1&click_id=33

虚拟试穿一直是电商与内容创作的刚需，但传统视频虚拟换衣技术，长期卡在服装细节糊、背景闪、模型重、数据差四大痛点。2026 年 CVPR 最新接收的 KeyTailor，用一套关键帧驱动细节注入方案，不改动 DiT 主干、不加参、不降速，直接把服装动态细节、背景帧间一致性拉满，搭配自研 15K 高清数据集 ViT-HD，全面超越现有 SOTA，让高清、真实、流畅的视频虚拟试穿成为现实。

CVPR 2026｜视频虚拟试穿新 SOTA！KeyTailor 虚拟换衣告别假质感，15K 高清数据集 ViT-HD 已经开源。

unsetunset相关链接unsetunset

论文：https://arxiv.org/abs/2512.20340
主页：https://huggingface.co/datasets/zijiyingcai/ViT-HD
数据集：https://huggingface.co/datasets/zijiyingcai/ViT-HD

unsetunset论文介绍unsetunset

当前基于DiT的视频试穿方法虽能生成连贯视频，但在细粒度服装动态建模与背景时序一致性上仍存在明显短板，且常因引入额外交互模块导致计算开销激增。为此，团队创新性地提出"关键帧驱动细节注入"策略：利用关键帧天然包含前景动态与背景一致性的特性，通过指令引导采样筛选高信息量帧，并设计服装细节增强（GDDE）与背景协同优化（CBDO）双模块，将关键帧中的细粒度特征高效蒸馏至生成过程。该设计在不改动DiT主干的前提下实现质量跃升，兼具高效性与可扩展性。

unsetunset方法概述unsetunset

CVPR 2026｜视频虚拟试穿新 SOTA！KeyTailor 虚拟换衣告别假质感，15K 高清数据集 ViT-HD 已经开源。 KeyTailor的总体框架。 KeyTailor 将参考服装图像 Iref、源视频 Vin、其相应的不可知视频 Vagn、不可知掩模 Magn 和姿势表示 P 作为输入。这些输入被编码为与服装相关的潜在变量 Lg，背景相关潜伏 Lbg、姿势潜伏 Lp 和调整大小的蒙版 Lm。具体来说，与服装相关的潜在变量是由 GDDE 生成的模块，CBDO 模块的背景相关潜在变量，以及可训练的姿势引导器的姿势潜在变量。随后，所有这些潜在信息与噪声潜在信息一起被注入 N 个 DiT 块中，以生成最终的试戴视频令牌，然后由基于 VAE 的解码器进行解码视频解码器合成输出视频。

KeyTailor 核心思路很直接：关键帧里藏着前景动态和背景一致性的全部信息，不用改 DiT 架构，把关键帧信息高效注入即可。整体由三大核心模块构成，轻量、高效、效果强。

指令引导关键帧采样（IKS）：精准挑 “有用帧” 不随机采样，而是用视觉语言模型解析视角 / 动作指令，生成标准姿态锚点；计算每帧与锚点的动作差异、服装占比，排序筛选出覆盖多角度、多动作、低冗余的关键帧，为后续细节提取打下基础。
服装细节增强（GDDE）：褶皱、纹理全还原先用单图试穿模型把目标服装注入初始帧，再从关键帧蒸馏动态细节（褶皱、背面纹理、光影变化），强化服装 latent，让衣物贴合肢体、动态自然、细节饱满。
协同背景优化（CBDO）：背景稳、不跳变全局分支抓背景整体结构，局部分支从关键帧补细节；加权融合后输出稳定、清晰、帧间一致的背景 latent，彻底解决背景闪烁、模糊问题。
轻量融合：无缝适配 DiT 把增强服装 latent、优化背景 latent，和姿态、掩码、噪声 latent 高效融合，注入 DiT 的 LoRA 适配器。全程不改 DiT 主干、不增参、不拖慢速度，兼顾质量与效率。

数据集介绍

团队同步发布大规模高清数据集 ViT-HD： 15,070 个高质量视频；分辨率 810×1080；覆盖上装、下装、全身装，场景丰富、主体清晰、曝光正常。高质量数据 + 强模型，从根源解决泛化不足问题，让虚拟试穿适配更多服装与场景。

unsetunset实验结果unsetunset

在 VFID、SSIM、LPIPS 等核心指标上，KeyTailor 显著领先：

服装细节：褶皱、纹理、动态形变精准还原，质感真实；
背景一致性：无闪烁、无跳变、细节清晰；
效率：轻量设计，推理速度快、成本低；
泛化：复杂姿态、多样服装、不同场景均稳定输出高质量结果。

unsetunset总结unsetunset

KeyTailor+ViT-HD，以关键帧驱动细节注入为核心，用极简、轻量的方案，一次性解决虚拟试穿的细节、背景、效率、数据四大难题。作为 CVPR 2026 收录的重磅成果，它将直接赋能电商虚拟试衣、短视频穿搭创作、数字人服装替换等场景，降低高清真实视频生成门槛，推动 AIGC 在商业场景的深度落地。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章