您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架

本文作者: 陈淑瑜   2026-06-02 16:57 专题:CVPR 计算机视觉与模式识别会议
导语:只让少量“代理 token”真实去噪,再用它们的残差变化带动其他token模拟去噪。

来源:公众号“数字内容合成与伪造检测”

原文链接:https://mp.weixin.qq.com/s/bdgq0Hl1oHDYm82DicJBow

计算机视觉领域顶级会议 IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026(CVPR 2026)将于6月3日至7日在美国丹佛举办。本届CVPR共收到16,092份有效论文投稿,最终主会录用论文4,090篇(录用率25.42%)。


本文将介绍一篇关于扩散模型加速的CVPR 2026论文。


CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架

题目:ResCa: Residual Caching for Diffusion Transformers Acceleration

作者:Haipeng Fang, Yu Li, Fan Tang, Yixing Lu, Juan Cao, Sheng Tang

论文链接:
https://openaccess.thecvf.com/content/CVPR2026/papers/Fang_ResCa_Residual_Caching_for_Diffusion_Transformers_Acceleration_CVPR_2026_paper.pdf

(点击“阅读原文”可直接跳转) 

Diffusion Transformer正在成为高质量图像与视频生成的核心架构。从FLUX到HunyuanVideo,生成效果越来越强,但推理成本也越来越高:每一步去噪都要需要大量token,每个token都经过海量计算。如何在尽可能不损失生成质量的前提下,让DiT跑得更快?本文提出ResCa(Residual Caching),一个训练无关的扩散 Transformer 加速框架。它的核心想法可以概括为:只让少量“代理 token”真实去噪,再用它们的残差变化带动其他token模拟去噪。


研究背景:已有Token裁剪方法都会偏离原始去噪轨迹


现有特征级加速方法通常从 token reduction 入手,减少每一步真正参与计算的 token 数量。典型路线主要有两类:

1. 缓存旧 token:如 ToCa、TokenCache 等,复用前一时间步的 token 特征,但由于未经历当前时间步更新,形成 non-updated 的去噪方向。

2. 合并相似 token:如 ToMeSD、SDTM 等,把相似token合并后统一计算,但合并后的特征不再完全属于原token自己,形成 non-self 的去噪方向。

CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架

图1:去噪轨迹对比示意图. (a)原始去噪轨迹 (b)缓存方法 (c) 合并方法 (d) ResCa

也就是说,传统方法虽然减少了计算,却可能破坏扩散模型原本的去噪轨迹。


关键洞察:与其缓存特征,不如缓存“变化”


ResCa的核心观察是:沿着相似历史轨迹运动的 token,它们的残差变化也相似。这里的“残差”指的是 token 特征在相邻时间步之间的变化,而不是网络里的 skip connection 。0阶残差对应原始特征, n阶残差反映n-1阶残差的变化。


这一视角带来了一个重要转变:过去的方法更多在复用“特征状态”,而 ResCa 选择复用“去噪方向”。为了验证这一点,我们基于 FLUX.1 分析了两个问题:

  • 在哪里找相似残差?只看单步特征相似度并不可靠,基于历史去噪轨迹进行聚类,能更准确地找到残差变化相似的 token 。

  • 如何使用相似残差?1-, 2- , 3- 阶残差比原始特征更可复用,同时历史残差关系能够帮助估计未来残差的可信度。

CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架



    图2:预实验分析:轨迹聚类更容易找到相似残差,1,2,3阶残差更适合复用


    核心方法:ResCa 的代理去噪框架


    本文提出ResCaResidual Caching),一个免训练的DiT加速框架。ResCa 的整体流程非常直观:在 dense timestep 中,全量计算并缓存 token ;在 sparse timestep 中,每个簇只选择一个 proxy token 真实去噪,其余 driven tokens 通过 proxy 的残差进行模拟更新。

    CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架

    图3:ResCa整体架构

    > 模块一:时序增强轨迹聚类(Temporal-Enhanced Trajectory Clustering)

    TETC 的目标是把“未来残差可能相似”的 token 分到同一个簇中

    • 计算每个时间步的 token 相似度:对于历史轨迹序列中的每个时间步,ResCa 计算 token 两两之间的余弦相似度,得到单步相似度矩阵。

    • 累积时序增强相似度越接近当前的时间步,越能反映接下来的变化趋势,因此采用带平滑因子的时间移动平均,赋予近期时间步更高权重。

    • 基于轨迹相似度进行聚类:基于相似度矩阵后进行 K-medoids 聚类;每个簇中选择一个 token 作为 proxy token ,其余 token 则作为 driven tokens。

    > 模块二:代理驱动去噪模拟(Proxy-Driven Denoising Simulation)

    PDDS 是 ResCa 的核心。它回答的问题是:当只有 proxy token 被真实去噪后,如何更新同簇中那些没有经过完整网络计算的 driven tokens?

    • 真实去噪proxy token对 proxy token 执行完整的 Transformer 计算,得到它在当前时间步的真实去噪结果,并通过递归有限差分构造多阶残差。

    • 估计driven tokens的未来残差:根据 driven token 与 proxy token 的历史残差一致性,计算 order-specific confidence weight,以衡量 proxy 未来残差的可信度,并在 driven token 自身残差基础上引入可信的方向校正。

    • 通过隐式 ODE 更新 driven tokens:采用隐式 ODE (implicit Euler、implicit BDF2 和 implicit Taylor) 更新 driven tokens,平衡加速效率与生成质量。


    实验分析:高加速比下,质量仍然稳定


    本文在 FLUX.1-dev、HunyuanVideo 和 DiT-XL/2 上进行了系统验证,并对关键模块开展了消融实验。此外,本文还从理论和实验两个角度分析了基于代理采样方法的稳定性。下面主要展示图像生成与视频生成任务上的核心结果,更多实验与分析请见论文原文。

    > Text-to-Image FLUX

    在 FLUX.1-dev 上,ResCa 在多个加速档位下都保持了较高质量。定性结果中,ResCa 在水壶反射、机器人肢体、人脑纹理等细节上保留得更好。

    CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架

    表1:基于FLUX的定量对比

    CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架

    图4:基于FLUX的生成图像对比

    > Text-to-Video HunyuanVideo

    在 HunyuanVideo 上,ResCa-IE 以 5.53× FLOPs 加速 取得 79.98 的 VBench 得分,是同档加速方法中的最佳结果。定性对比显示,其他方法可能出现瓶盖位置错误、水花细节缺失、鼓槌物体缺失等问题,而 ResCa 在语义对齐和细节完整性上更加稳定。

    CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架

    表2:基于HunyuanVideo的定量对比

    CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架

    图5:基于HunyuanVideo的生成视频对比

    更详细的实验分析请见论文原文。


    总结


    ResCa 为扩散 Transformer 加速提供了一个新的视角:不缓存旧状态,而缓存残差变化。通过“代理去噪”,ResCa 在保留 token 自身轨迹的同时,引入来自 proxy token 的未来残差校正,从而同时保持 self 与 updated 的去噪方向。这一训练无关框架可以自然集成到 DiT、FLUX、HunyuanVideo 等模型中,并在图像生成、视频生成和不同加速档位下展现出稳定优势。

    我们希望 ResCa 能为扩散模型高效推理提供新的启发,也推动 proxy denoising 范式在生成式视觉模型中的进一步探索。

    (Project Page: https://fanghaipeng.github.io/ResCa/


    CVPR 2026 | 生成1024高清图,只需要16个Token?基于代理去噪的扩散模型加速框架

    分享:
    相关文章
    最新文章
    请填写申请人资料
    姓名
    电话
    邮箱
    微信号
    作品链接
    个人简介
    为了您的账户安全,请验证邮箱
    您的邮箱还未验证,完成可获20积分哟!
    请验证您的邮箱
    立即验证
    完善账号信息
    您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
    立即设置 以后再说