RefTON & NAMI——多模态生成双剑合璧，虚拟试衣与轻量化图像生成 | CVPR 2026

本文作者：陈淑瑜

2026-04-27 18:52

导语：引入服装上身参考图作为视觉指引，通过双阶段训练策略和多条件输入适配，实现仅凭人物原图加目标服装图两张输入的极简试衣

一、研究背景

多模态生成是计算机视觉最活跃的研究方向之一。

虚拟试衣（Virtual Try-on）是电商零售核心场景，但传统方法严重依赖人体姿态识别、图像分割等辅助模型，流程冗长，外部误差累积明显；生成质量上，面料质感失真、蕾丝花纹丢失、透明材质处理困难等问题长期困扰用户体验，制约了商业落地。RefTON 开创性地引入服装上身参考图作为视觉指引，仅需人物原图与目标服装图，就能实现高保真的虚拟试穿生成，为电商零售等相关业务场景，打造了更贴合实际需求的虚拟试衣技术方案。

高分辨率AI图像生成长期面临效果好则速度慢、速度快则效果打折扣的两难困境。主流模型参数量庞大、推理延迟高、算力消耗大，在移动端和端侧设备上几乎无法实时运行，严重限制了 AI 图像生成在消费级设备上的普及。NAMI 架构，则在保证生成画质、文本语义对齐能力比肩国际顶尖模型的前提下，将 1024×1024 高分辨率图像的推理时间大幅降低 64%。

二、核心方法

RefTON 的核心创新是引入服装上身参考图作为视觉指引，通过双阶段训练策略和多条件输入适配，实现仅凭人物原图加目标服装图两张输入的极简试衣。第一阶段训练模型理解服装的几何变形规律，第二阶段专注于纹理细节的精细还原。通过参考图中的服装真实上身效果作为纹理和形变的双重监督信号，使模型无需额外的人体姿态或分割先验即可完成高保真生成，同时支持 masked 和 unmasked 两种试穿模式以覆盖不同场景。

而NAMI 提出桥接渐进式 Rectified Flow 架构，通过自研 BridgeFlow 模块将图像生成过程按分辨率拆解为两阶段：低分辨率阶段快速搭建图像粗略轮廓，高分辨率阶段精细化打磨细节。跨阶段流的精准对齐（BridgeFlow）是实现高质量高速度的关键技术，它将两阶段的扩散轨迹在隐空间中无缝衔接，避免了多模型串联带来的语义漂移和质量损失。