您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

RefTON & NAMI——多模态生成双剑合璧,虚拟试衣与轻量化图像生成 | CVPR 2026

本文作者: 陈淑瑜   2026-04-27 18:52 专题:CVPR 计算机视觉与模式识别会议
导语:引入服装上身参考图作为视觉指引,通过双阶段训练策略和多条件输入适配,实现仅凭人物原图加目标服装图两张输入的极简试衣

一、研究背景  

多模态生成是计算机视觉最活跃的研究方向之一。

虚拟试衣(Virtual Try-on)是电商零售核心场景,但传统方法严重依赖人体姿态识别、图像分割等辅助模型,流程冗长,外部误差累积明显;生成质量上,面料质感失真、蕾丝花纹丢失、透明材质处理困难等问题长期困扰用户体验,制约了商业落地。RefTON 开创性地引入服装上身参考图作为视觉指引,仅需人物原图与目标服装图,就能实现高保真的虚拟试穿生成,为电商零售等相关业务场景,打造了更贴合实际需求的虚拟试衣技术方案。

高分辨率AI图像生成长期面临效果好则速度慢、速度快则效果打折扣的两难困境。主流模型参数量庞大、推理延迟高、算力消耗大,在移动端和端侧设备上几乎无法实时运行,严重限制了 AI 图像生成在消费级设备上的普及。NAMI 架构,则在保证生成画质、文本语义对齐能力比肩国际顶尖模型的前提下,将 1024×1024 高分辨率图像的推理时间大幅降低 64%。

二、核心方法  

RefTON 的核心创新是引入服装上身参考图作为视觉指引,通过双阶段训练策略和多条件输入适配,实现仅凭人物原图加目标服装图两张输入的极简试衣。第一阶段训练模型理解服装的几何变形规律,第二阶段专注于纹理细节的精细还原。通过参考图中的服装真实上身效果作为纹理和形变的双重监督信号,使模型无需额外的人体姿态或分割先验即可完成高保真生成,同时支持 masked 和 unmasked 两种试穿模式以覆盖不同场景。

而NAMI 提出桥接渐进式 Rectified Flow 架构,通过自研 BridgeFlow 模块将图像生成过程按分辨率拆解为两阶段:低分辨率阶段快速搭建图像粗略轮廓,高分辨率阶段精细化打磨细节。跨阶段流的精准对齐(BridgeFlow)是实现高质量高速度的关键技术,它将两阶段的扩散轨迹在隐空间中无缝衔接,避免了多模型串联带来的语义漂移和质量损失。

三、亮点总结  

亮点一:RefTON——零辅助输入的高保真试衣

彻底摆脱对姿态估计、图像分割等复杂辅助输入的依赖,将试衣系统从需要多个专家模型协同简化为端到端单模型推理。在国际公开基准测试中达到领先性能,尤其在蕾丝、透明材质等极难还原纹理上表现卓越,具有极强的电商落地价值。

RefTON & NAMI——多模态生成双剑合璧,虚拟试衣与轻量化图像生成 |   CVPR 2026

亮点二:NAMI——1024x1024推理速度降低64%

在保持图像生成质量与主流顶尖模型相当的前提下,将1024x1024分辨率的推理时间降低了 64%,这是生成效率领域的重要突破,使高质量图像生成在移动端和端侧 AI 设备上成为可能,为消费级 AI 应用普及打开了空间。

RefTON & NAMI——多模态生成双剑合璧,虚拟试衣与轻量化图像生成 |   CVPR 2026

亮点三:产学研深度融合的典范

两项工作均立足360集团真实业务场景(电商试衣、移动端生成),通过前沿学术研究解决产业痛点,并已全部开源(GitHub: 360CVGroup)。这种顶会论文即工程交付的研发模式,为 AI 研究机构的成果转化提供了优秀样本。

──────────────────────────────────────────

上述内容包含AI辅助生成,更详细信息参见两个链接

原文链接:https://github.com/360CVGroup

解读来源:https://research.360.cn/blog/26fd5d52-aad1-4ffa-9d0e-9ebdd9831560



雷峰网版权文章,未经授权禁止转载。详情见转载须知

RefTON & NAMI——多模态生成双剑合璧,虚拟试衣与轻量化图像生成 |   CVPR 2026

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说