0
| 本文作者: 陈淑瑜 | 2026-05-27 18:08 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:微软亚洲研究院
原文链接:https://mp.weixin.qq.com/s/GECHPc8h_mblnXirldVaRg?scene=1&click_id=96


CoD:面向图像压缩的扩散基础模型
基于一维隐表示的生成式视频压缩
HiSpatial:增强视觉-语言大模型的层级3D空间认知能力
面向3D生成的原生紧凑结构化隐表示(Oral, Award Candidate)
面向扩散Transformer 模型的区域自适应采样
基于参考引导深度压缩VAE的可流式传输实时说话人像视频生成(Highlight)
语义主导:借助异步隐扩散融合语义与纹理建模
CoD:面向图像压缩的扩散基础模型

论文链接:
https://arxiv.org/abs/2511.18706
现有的扩散编解码器大多基于 Stable Diffusion 等文本到图像的基础模型,但从压缩角度看,文本条件并不理想,尤其在极低码率下会阻碍下游扩散编解码器的潜力。为此,研究员们引入了首个面向压缩的扩散基础模型 CoD。该模型从头开始训练,实现压缩与生成的端到端联合优化。CoD 并非固定编解码器,而是适用于各类扩散编解码器的通用基础模型。
CoD 采用原生图像编码器将图像压缩为紧凑表示,通过信息瓶颈强制极低码率,再由扩散模块在条件引导下重建像素。训练方面,CoD将整流流损失与失真优化统一训练,并以完全自监督的方式仅在公开图像数据集上学习。

图1:CoD基础模型概述
CoD 具备多重优势:在下游任务中替换 Stable Diffusion 可达到 SOTA,尤其在0.0039 bpp极低码率下表现突出;训练成本极低,仅需约20 A100 GPU 天,训练速度提升约300 倍且完全可复现。研究发现,CoD的像素空间扩散可实现VTM 级别 PSNR 与高感知质量,并能够以更少参数超越 GAN 类编解码器。
基于一维隐表示的生成式视频压缩

论文链接:
https://arxiv.org/abs/2603.15302
传统视频编解码器与现有神经视频压缩方法,在处理高保真内容时难以兼顾低码率与优质感知质量。尤其是生成式视频编解码器(GVC)普遍采用的二维潜在表示,存在空间冗余高、长时语义建模能力不足等问题。
为此,研究员们提出了基于一维潜在表示的生成式视频压缩方法GVC1D。该方法利用视觉Transformer将视频编码为极紧凑的一维潜在标记,打破二维网格的刚性空间对应关系,有效减少帧内冗余并实现 token 数量的自适应缩减。同时,研究员们设计了一维记忆模块,利用少量语义丰富的一维标记递归更新记忆状态,既能保持低计算成本,还可以提供连贯长时上下文,进一步降低帧间冗余。

图2:GVC1D框架概述。xt 首先被分割为图像块,然后输入由局部和全局Transformer组成的编码器,生成 yt。熵模型对 yt进行自回归熵编码。所有过程均由一个结合了长期一维记忆和短期上下文缓冲区的上下文模型进行引导,以提供全面的时序上下文。
实验表明,GVC1D 在多个基准上均取得优异性能,显著超越传统编解码器与最新神经视频压缩方法。在 HEVC Class B 数据集上,相较此前最优感知编解码器,GVC1D在 LPIPS 指标上节省了 60.4% 比特率,在 DISTS 指标上节省了 68.8% 比特率。同时,GVC1D 在 PSNR、MS-SSIM 等客观指标上表现突出,视觉质量与时间一致性均优于现有方案,充分验证了一维潜在表示用于视频压缩的有效性与优越性。

视觉语言模型(VLM)在二维视觉语言任务上已取得显著进展,但从二维感知扩展到三维空间理解仍面临重大挑战。现有方法在三维空间理解任务上仍然缺乏系统性的分层任务设计,且领域内缺少大规模、多样化的三维标注数据集用于全面提升VLM的空间理解能力。
为此,研究员们提出了一种分层三维空间理解框架HiSpatial,将三维空间理解划分为四个递进层次,从底层的几何感知到高层的抽象推理;并且根据这一分层构建了自动化数据生成流程,利用约500万张真实场景图像和超过4500万个关注物体,合成了涵盖多样场景与任务的海量三维空间视觉问答对,用于VLM的有监督微调。在此基础上,研究员们又设计了结合度量尺度三维点云图输入的HiSpatial VLM,来进一步增强模型的空间推理准确性。
图3:方法概述。左侧:数据构建流程,该流程可从真实场景图像或带有3D标注的现有数据中生成空间理解相关的问答对。右侧:分层空间理解任务分类体系及代表性问答对。
实验表明,HiSpatial-3B VLM在多个空间理解与推理基准上达到 SOTA 性能,超越已有的专用空间理解模型与 Gemini-2.5-pro、GPT-5 等闭源模型。研究同时揭示了空间理解层级任务间的明确依赖关系,验证了引入低层级任务可持续提升高层推理能力,为未来高效构建三维空间智能模型提供了新的策略。

https://cvpr.thecvf.com/virtual/2026/poster/37074
3D生成建模在提升真实感方面进展显著,但现有表征难以同时捕捉复杂拓扑与精细外观,且缺乏高效的原生3D潜空间。为解决这一难题,微软亚洲研究院的研究员们引入了名为O-Voxel的面向 3D 资产的原生稀疏体素表征,可稳健建模任意拓扑结构并编码完整 PBR 材质参数。
基于该表征,团队设计了稀疏压缩变分自编码器(SC-VAE),通过残差自编码结构实现了最高 16 倍空间压缩,将高分辨率资产转化为紧凑的结构化潜变量。利用这些潜变量,研究员们训练了参数量约40 亿的大规模流匹配模型,实现了原生 3D 资产生成。

图4:O-Voxel示意图及其与3D资源之间的即时双向转换。
实验结果表明,该方法在几何与材质质量上远超现有模型,推理效率极高,在单张H100 GPU 上仅需约3 秒即可生成分辨率 512 的 3D 资产。O-Voxel 与 SC-VAE 的组合突破了传统方法在拓扑表达与计算效率上的瓶颈,为构建高质量、高效率的原生 3D 生成系统提供了通用解决方案。

论文链接:
https://arxiv.org/abs/2502.10389
扩散模型虽已成为跨领域生成任务的主流方案,但依赖多次顺序前向传播的特性严重限制了实时性能。以往加速方法多聚焦减少采样步数或重用中间结果,受限于卷积 U-Net 结构,未能利用图像内部空间区域的差异。
借助扩散变换器(DiTs)处理可变数量 token 的灵活性,研究员们提出无需训练的新型采样策略 RAS(区域自适应采样),根据 DiT 的关注区域动态为不同图像区域分配不同采样比例。其核心发现是,在每一步采样中模型都会聚焦语义关键区域,且关注区域在连续步骤间具有强连续性。基于此,RAS 仅更新当前关注区域,其余区域直接复用前一步缓存的噪声,关注点由前一步输出确定,充分利用时序一致性。

图5:与RAS中的其他区域相比,主体及细节更丰富的区域经过了更多的处理步骤。每个方块代表一个分块化的潜在token。
在Stable Diffusion 3和Lumina-Next-T2I上评估RAS,分别实现了最高2.36倍和2.51倍的加速,且生成质量下降极小。此外,用户研究表明,在人类评估下,该方法在保持同样质量的同时实现了1.6倍加速。RAS通过动态调整不同区域的采样比例,有效提高了计算资源的利用效率,大幅降低了计算开销,为扩散变换器提供了更高效的解决方案,显著增强了其在实时应用中的落地潜力。

论文链接:
https://cvpr.thecvf.com/virtual/2026/poster/36995
视频扩散模型虽然显著提升了肖像视频生成的质量,但高昂的计算成本严重限制其在实时交互场景中的落地应用。为解决这一难题,研究员们提出了一种支持流式传输的说话人肖像视频生成框架,实现高保真、低延迟的音频驱动视频合成。
该框架核心包含两部分:一是提出参考引导的因果视频 VAE,融合单张或多张参考图像特征,使网络专注动态信息提取而非静态外观,将视频压缩率提升至768 倍;二是构建基于Rectified Flow Transformer的自回归潜在去噪模型,采用块状因果注意力与 KV 缓存技术,支持视频潜在表示的流式生成。

图6:框架概述。左侧:所提出的参考引导式因果视频VAE。右侧:采用块级因果注意机制的 Rectified Flow Transformer,用于建模紧凑视频潜在向量的概率分布。
实验结果显示,该方法能够在单张 H100 GPU 上以 42 FPS 的速度实时生成 512 分辨率视频,较现有基线模型提升25倍以上,且在嘴型同步、语音与头部姿态一致性等指标上达到当前领先水平,并在视频真实感、生动度及整体生成质量等方面表现优异。

论文链接:
https://arxiv.org/abs/2512.04926
潜在扩散模型(LDMs)遵循从粗到细的生成过程,高层语义结构的生成略早于细粒度纹理,但现有方法仍同步去噪语义与VAE编码的纹理,忽视了这种时序顺序。
为解决这一挑战,研究员们引入了一种名为语义优先扩散(SFD)的潜在扩散范式,显式优先构建语义表征。该方法通过专用语义VAE从预训练视觉编码器提取紧凑语义潜在变量,并将其与纹理潜在变量组合成复合潜在表示。其核心在于采用独立的噪声调度策略,异步对语义与纹理潜在变量进行去噪,使语义部分在时间上领先于纹理部分,为纹理精炼提供更清晰的高层指导,实现自然的从粗到细生成。
SFD 分为三个阶段:第一阶段语义初始化,语义潜变量率先进行去噪;第二阶段异步生成,语义和纹理共同进行去噪但不同步,语义领先于纹理;第三阶段纹理完成,仅纹理继续进行精炼。去噪完成后,生成的语义潜变量 s1 被丢弃,最终图像仅从纹理潜变量 z1 解码获得。
图7:(a) 语义优先扩散SFD概述。语义(虚线)和纹理(实线)遵循异步去噪轨迹。(b) 在无引导的 ImageNet 256×256 数据集上的训练收敛情况。SFD 的收敛速度显著快于 DiT-XL/2 和 LightningDiT-XL/1,分别快约 100 倍和 33.3 倍。在ImageNet 256×256有引导生成任务中,SFD实现了FID 1.06(LightningDiT-XL)和FID 1.04(1.0B LightningDiT-XXL)的优异性能,收敛速度比原始DiT最高提升100倍。此外,SFD还能改进ReDi、VA-VAE等现有方法,充分验证了异步语义主导建模的有效性。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。