0
| 本文作者: 陈淑瑜 | 2026-06-12 16:38 | 专题:CVPR 计算机视觉与模式识别会议 |

作者丨美图影像研究院(MT Lab)
近年来,生成式AI加速推动了影像内容生产方式的变革,随着AI生图与修图逐渐成为人们影像生活中的新范式,也产出了不少“笑料”。比如当你希望调整照片中人物微笑弧度时,模型可能将五官结构也一起改变了,或者想让照片中的人“减龄”,却直接改变了性别。本质上,这是因为当前大量的生成模型虽然拥有强大的生成能力,但其内部语义仍然高度“纠缠(entangled)”。
对于模型而言,各种概念并非完全独立的,尤其是面对人像这类细节庞杂的照片,表情、年龄、发型、肤色、光线等维度往往混杂在同一个空间中,这也是为什么很多生成结果看似惊艳,却难以真正稳定、可控地服务真实使用场景。
过去,人们更关注模型的“生成能力”,但随着模型在高质量生成方面获得的持续突破,并进一步进入真实用户场景后,不难发现仅有生成能力是不够的,用户所需的一项关键能力是“可控”,比如改变照片中人物的年龄感时仍然要“像本人”,多人场景下要能够只编辑指定对象,调整人物表情时人脸ID信息要保持一致。因此,面向生成图像的可解释、细粒度、连续属性操纵(Attribute Manipulation),成为一项亟待解决的关键问题。
对此,美图影像研究院(MT Lab)联合北京交通大学提出了基于扩散模型的图像属性操纵的新方法框架All-in-One Slider,该方案实现了对人脸属性的连续精细化控制,并最大限度地保持了图像整体结构及面部细节信息,满足用户对人像精细化编辑的多元化需求,该研究成果现已被国际计算机视觉三大顶会之一的CVPR 2026接收。

论文链接:https://www.alphaxiv.org/abs/2508.19195

01
为了实现对生成图像特定属性的连续操纵,现有研究通常会通过训练滑块(Slider)模块来解决该问题,但这些方法大多采用One-for-One模式,即针对每个属性都需要训练独立滑块,而每次引入新属性都必须重新进行训练,这不仅导致了较高的参数冗余,也限制了属性编辑在真实应用场景中的灵活性及可扩展性。
针对这一问题,研究团队创新性地提出了All-in-One Slider框架模式,该方案通过一个轻量级模块将文本嵌入空间,并分解为稀疏且具有明确语义的属性方向。
该模块在完成训练后,即可作为通用滑块使用,能够实现对年龄、表情、妆容、发型等多种属性的可解释、细粒度连续操纵。研究团队还发现,通过对已学习到的属性方向进行重组,All-in-One Slider能够实现对多属性组合及未见属性的零样本泛化操纵。

图1:One-for-One slider训练方法V.S.All-in-One Slider训练方法
大量实验结果表明,All-in-One Slider在属性编辑准确性、身份一致性保持及可扩展性等维度相较既往方案有显著提升,此外,还支持进一步扩展并集成至扩散模型的Inversion框架中,实现对真实图像的属性控制,从而拓宽了在各种现实场景中的落地应用。

02
All-in-One Slider的核心在于引入了轻量级的属性稀疏自编码器(Attribute Sparse Autoencoder),通过“break it down to build it up”的策略,将复杂的属性操纵分解为属性稀疏自编码器(Attribute Sparse Autoencoder)的解耦训练和滑块的属性操纵两个关键阶段。
阶段一:属性解耦训练
在训练阶段,该模块首先将文本编码器中提取的嵌入向量映射到一个高维统一的属性潜空间中,并通过Top-k激活机制强制实现稀疏化,使每个语义组件仅由极少数神经元表示,从而在源头上实现了不同属性间的彻底解耦。为了进一步提升模型的表达能力,研究团队还引入了辅助损失函数进行残差修复,通过激活“死神经元”确保模型能够覆盖更广泛且细粒度的语义范围,为后续精准的属性控制奠定了坚实的解耦基础。
阶段二:滑块的属性操纵
完成训练后,该模块化身为一个强大的“通用操纵器”,并展现出极佳的“即插即用”特性,只需提取目标属性的文本特征,模型就可以在统一潜空间中精准定位其语义方向,且无需针对新属性进行额外微调;通过简单地调整缩放因子λ(操纵强度),还可以实现对图像属性平滑的控制,例如用户可以连续控制人像的年龄感、笑容强度、妆容浓淡,而不是局限在固定幅度的切换。更重要的是,得益于稀疏空间的解耦特性,能够确保在大幅度改变目标属性的同时,完美保留原图的人物的身份特征信息与背景细节。
All-in-One Slider不仅为扩散模型的连续属性操纵提出了全新的统一范式,它在可扩展性、可解释性及灵活性方面的显著优势,也为如何在统一空间内以极低训练与参数成本实现高精度属性编辑等任务提供了新思路。

图2 :All-in-One Slider 框架概述
阶段一:属性稀疏自编码器的无监督训练。该过程以从文本编码器残差流中获取的标记嵌入作为输入,旨在利用稀疏特征对其进行重构。阶段二:应用训练好的属性稀疏自编码器,在图像生成过程中灵活地操纵特定属性。

03

图3:大量面部属性操纵的定性结果

图4:组合属性操纵的定性结果

表1:单属性和多属性操纵的定量比较

图5:对不同种族属性进行连续零样本泛化

表2:研究控制不同层的影响

图6:研究不同控制强度的影响

图7:对不同摄影风格的连续控制的定性结果

图8:多主体场景控制

04
AI影像正在进入高速发展期,相比聚焦通用能力的大模型公司,美图面对的是海量真实的用户场景,因此更关注让技术真正服务于用户需求。过去,用户对影像的需求更多停留在“好看”,而在更关注情绪表达与自然真实的当下,无论是人物状态、光影质感,还是影像中的情绪浓度,其背后都对应着更加复杂的人类语义,随着AI Agent转向垂直场景深度应用的下半场,这也意味着AI影像需要由“功能叠加”走向“理解驱动”。
生成模型解决的是“从无到有”,而下一阶段更重要的则是让模型更精准地理解用户的真实意图。基于长期积累的研发经验与对用户场景的深刻洞察,美图正在持续推动生成式AI与影像工具的进一步融合,在技术与场景之间实现“真正可用”。
雷峰网(公众号:雷峰网)
雷峰网特约稿件,未经授权禁止转载。详情见转载须知。
本专题其他文章