CVPR 2026 | 生成1024高清图，只需要16个Token？基于代理去噪的扩散模型加速框架

本文作者：陈淑瑜

2026-06-02 16:57

导语：只让少量“代理 token”真实去噪，再用它们的残差变化带动其他token模拟去噪。

来源：公众号“数字内容合成与伪造检测”

原文链接：https://mp.weixin.qq.com/s/bdgq0Hl1oHDYm82DicJBow

计算机视觉领域顶级会议 IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026（CVPR 2026）将于6月3日至7日在美国丹佛举办。本届CVPR共收到16,092份有效论文投稿，最终主会录用论文4,090篇（录用率25.42%）。

本文将介绍一篇关于扩散模型加速的CVPR 2026论文。

CVPR 2026 | 生成1024高清图，只需要16个Token？基于代理去噪的扩散模型加速框架

★
题目：ResCa: Residual Caching for Diffusion Transformers Acceleration
作者：Haipeng Fang, Yu Li, Fan Tang, Yixing Lu, Juan Cao, Sheng Tang
论文链接：
https://openaccess.thecvf.com/content/CVPR2026/papers/Fang_ResCa_Residual_Caching_for_Diffusion_Transformers_Acceleration_CVPR_2026_paper.pdf
（点击“阅读原文”可直接跳转）

Diffusion Transformer正在成为高质量图像与视频生成的核心架构。从FLUX到HunyuanVideo，生成效果越来越强，但推理成本也越来越高：每一步去噪都要需要大量token，每个token都经过海量计算。如何在尽可能不损失生成质量的前提下，让DiT跑得更快？本文提出ResCa（Residual Caching），一个训练无关的扩散 Transformer 加速框架。它的核心想法可以概括为：只让少量“代理 token”真实去噪，再用它们的残差变化带动其他token模拟去噪。

研究背景：已有Token裁剪方法都会偏离原始去噪轨迹

现有特征级加速方法通常从 token reduction 入手，减少每一步真正参与计算的 token 数量。典型路线主要有两类：

1. 缓存旧 token：如 ToCa、TokenCache 等，复用前一时间步的 token 特征，但由于未经历当前时间步更新，形成 non-updated 的去噪方向。

2. 合并相似 token：如 ToMeSD、SDTM 等，把相似token合并后统一计算，但合并后的特征不再完全属于原token自己，形成 non-self 的去噪方向。

图1：去噪轨迹对比示意图. (a)原始去噪轨迹 (b)缓存方法 (c) 合并方法 (d) ResCa

也就是说，传统方法虽然减少了计算，却可能破坏扩散模型原本的去噪轨迹。

关键洞察：与其缓存特征，不如缓存“变化”

ResCa的核心观察是：沿着相似历史轨迹运动的 token，它们的残差变化也相似。这里的“残差”指的是 token 特征在相邻时间步之间的变化，而不是网络里的 skip connection 。0阶残差对应原始特征, n阶残差反映n-1阶残差的变化。

这一视角带来了一个重要转变：过去的方法更多在复用“特征状态”，而 ResCa 选择复用“去噪方向”。为了验证这一点，我们基于 FLUX.1 分析了两个问题：

在哪里找相似残差？只看单步特征相似度并不可靠，基于历史去噪轨迹进行聚类，能更准确地找到残差变化相似的 token 。
如何使用相似残差？1-, 2- , 3- 阶残差比原始特征更可复用，同时历史残差关系能够帮助估计未来残差的可信度。

图2：预实验分析：轨迹聚类更容易找到相似残差，1,2,3阶残差更适合复用

核心方法：ResCa 的代理去噪框架

本文提出ResCa（Residual Caching），一个免训练的DiT加速框架。ResCa 的整体流程非常直观：在 dense timestep 中，全量计算并缓存 token ；在 sparse timestep 中，每个簇只选择一个 proxy token 真实去噪，其余 driven tokens 通过 proxy 的残差进行模拟更新。

图3：ResCa整体架构

> 模块一：时序增强轨迹聚类（Temporal-Enhanced Trajectory Clustering）

TETC 的目标是把“未来残差可能相似”的 token 分到同一个簇中。

计算每个时间步的 token 相似度：对于历史轨迹序列中的每个时间步，ResCa 计算 token 两两之间的余弦相似度，得到单步相似度矩阵。
累积时序增强相似度：越接近当前的时间步，越能反映接下来的变化趋势，因此采用带平滑因子的时间移动平均，赋予近期时间步更高权重。
基于轨迹相似度进行聚类：基于相似度矩阵后进行 K-medoids 聚类；每个簇中选择一个 token 作为 proxy token ，其余 token 则作为 driven tokens。

> 模块二：代理驱动去噪模拟（Proxy-Driven Denoising Simulation）

PDDS 是 ResCa 的核心。它回答的问题是：当只有 proxy token 被真实去噪后，如何更新同簇中那些没有经过完整网络计算的 driven tokens？

真实去噪proxy token：对 proxy token 执行完整的 Transformer 计算，得到它在当前时间步的真实去噪结果，并通过递归有限差分构造多阶残差。
估计driven tokens的未来残差：根据 driven token 与 proxy token 的历史残差一致性，计算 order-specific confidence weight，以衡量 proxy 未来残差的可信度，并在 driven token 自身残差基础上引入可信的方向校正。
通过隐式 ODE 更新 driven tokens：采用隐式 ODE (implicit Euler、implicit BDF2 和 implicit Taylor) 更新 driven tokens，平衡加速效率与生成质量。

实验分析：高加速比下，质量仍然稳定

本文在 FLUX.1-dev、HunyuanVideo 和 DiT-XL/2 上进行了系统验证，并对关键模块开展了消融实验。此外，本文还从理论和实验两个角度分析了基于代理采样方法的稳定性。下面主要展示图像生成与视频生成任务上的核心结果，更多实验与分析请见论文原文。

> Text-to-Image FLUX

在 FLUX.1-dev 上，ResCa 在多个加速档位下都保持了较高质量。定性结果中，ResCa 在水壶反射、机器人肢体、人脑纹理等细节上保留得更好。

表1：基于FLUX的定量对比

图4：基于FLUX的生成图像对比

> Text-to-Video HunyuanVideo

在 HunyuanVideo 上，ResCa-IE 以 5.53× FLOPs 加速取得 79.98 的 VBench 得分，是同档加速方法中的最佳结果。定性对比显示，其他方法可能出现瓶盖位置错误、水花细节缺失、鼓槌物体缺失等问题，而 ResCa 在语义对齐和细节完整性上更加稳定。

表2：基于HunyuanVideo的定量对比

图5：基于HunyuanVideo的生成视频对比

更详细的实验分析请见论文原文。

总结

ResCa 为扩散 Transformer 加速提供了一个新的视角：不缓存旧状态，而缓存残差变化。通过“代理去噪”，ResCa 在保留 token 自身轨迹的同时，引入来自 proxy token 的未来残差校正，从而同时保持 self 与 updated 的去噪方向。这一训练无关框架可以自然集成到 DiT、FLUX、HunyuanVideo 等模型中，并在图像生成、视频生成和不同加速档位下展现出稳定优势。

我们希望 ResCa 能为扩散模型高效推理提供新的启发，也推动 proxy denoising 范式在生成式视觉模型中的进一步探索。

（Project Page: https://fanghaipeng.github.io/ResCa/）

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章