0
| 本文作者: 吴思梦 | 2026-06-08 16:11 |
CVPR 2026主会议于6月7日落下帷幕,三大重磅信号同频共振:奖项端,Google DeepMind的D4RT摘得最佳论文奖,Oxford VGG实现CVPR最佳论文「背靠背」两连冠,何恺明的ResNet/YOLO同获Longuet-Higgins时间检验奖,微软×清华的TRELLIS.2斩获最佳学生论文奖;数据基建端,号称「视觉物理ImageNet时刻」的PhysInOne以2M视频、150K+3D场景、71种物理现象震撼发布,VLA论文5倍增长、世界模型3倍增长已成共识;人才端,2名本科生半年揽5个顶会、大三学生凭老旧泰坦GPU拿下最佳学生论文提名,中国本科生顶会现象成为闭幕日全网热议话题。以下三大热门议题,雷峰网(公众号:雷峰网)带你一口气看完CVPR 2026闭幕日的所有精华。
热门议题一:五大奖项全揭晓——D4RT封神、牛津VGG两连冠、何恺明再获至高荣誉
闭幕式上,CVPR 2026五大奖项尘埃落定。Google DeepMind的D4RT以4D动态场景重建摘得最佳论文奖,标志着Oxford VGG连续两年站上CVPR最高领奖台(VGGT'25 + D4RT'26);何恺明团队的ResNet/YOLO同获Longuet-Higgins时间检验奖,再次印证其在计算机视觉史上的奠基地位;微软×清华的TRELLIS.2以17秒生成PBR资产的惊艳表现斩获最佳学生论文奖;SAM 3D获最佳论文提名,NitroGen(NVIDIA)获最佳论文荣誉提名。这五大奖项不仅是论文本身的胜利,更折射出计算机视觉从2D到4D、从感知到生成的范式迁移主线。
D4RT — CVPR 2026 Best Paper Award(Google DeepMind / UCL / Oxford · 闭幕式揭晓)
[摘要] CVPR 2026最佳论文奖花落Google DeepMind、UCL和Oxford联合团队的D4RT。该论文提出了一套高效的4D动态场景重建方法,在重建质量与计算效率之间取得了突破性平衡。这是Oxford VGG实验室连续两年斩获CVPR最佳论文——2025年的VGGT与2026年的D4RT共同写就了「背靠背」两连冠的传奇,也标志着4D重建已从研究前沿正式进入主流视野。

ResNet & YOLO — Longuet-Higgins 时间检验奖(何恺明团队)
[摘要] 何恺明团队的ResNet与YOLO检测框架同获CVPR 2026 Longuet-Higgins时间检验奖,表彰其对计算机视觉研究与实践长达十年以上的深远影响。从2015年的ResNet到2016年的YOLO,这两项工作经历了大规模工业验证后,其奠基性贡献获最高级别学术奖项认可,再次印证何恺明「一作即封神」的传奇学术轨迹。

TRELLIS.2 — 最佳学生论文奖(微软 × 清华 · 17秒生成PBR资产)
[摘要] 微软研究院与清华大学联合提出的TRELLIS.2斩获CVPR 2026最佳学生论文奖。TRELLIS.2作为原生3D大模型,能在17秒内生成超高精度的PBR(物理渲染)资产,将3D资产生成从「天级」缩短至「秒级」,被视为3D生成领域的新标杆。该论文是产学研结合的典范之作。
SAM 3D(最佳论文提名)& NitroGen(NVIDIA · 最佳论文荣誉提名)
[摘要] SAM 3D提出从单张图像进行3D重建的生成模型,获CVPR 2026最佳论文提名(Best Paper Finalist);NVIDIA的NitroGen则获得最佳论文荣誉提名(Best Paper Honorable Mention),延续了NVIDIA在CVPR的强势表现。两篇论文分属3D重建与图像生成方向,代表了当前计算机视觉最具活力的两个子领域。
热门议题二:PhysInOne发布——「视觉物理ImageNet时刻」开启,世界模型与具身智能论文暴涨
如果说D4RT代表了过去,那么PhysInOne的发布则指向CV视觉的未来。这个包含2M视频、150K+动态3D场景、71种物理现象(力学、光学、流体、磁学)的超大型数据集,被学界称为「视觉物理的ImageNet时刻」——其意义不在于一项技术突破,而在于为世界模型和具身AI研究奠定了此前缺失的数据基础设施。与此同时,CVPR 2026数据清晰显示VLA论文数量增长了5倍、世界模型论文数量增长了3倍,前AlphaFold2核心成员Simon Kohl以一场被评价为「全场最佳」的Keynote,打通了从蛋白质设计到生成式AI的跨领域链路。具身智能正在从学术春天走向真正的产业夏天。
PhysInOne: Physics-Grounded World Models & Embodied AI Dataset(「视觉物理ImageNet时刻」)
[摘要] PhysInOne是一个面向物理世界模型和具身AI的大规模数据集,包含200万个视频、150K+动态3D场景,覆盖71种物理现象(力学、光学、流体、磁学),并提供完整的2D/3D/4D/文本标注。其发布被视为世界模型训练的分水岭事件——在此之前,研究者缺少一个大规模、多元化、带物理标注的数据集作为世界模型的学习基础。PhysInOne有望成为具身智能时代的数据标准,推动机器人从「看懂世界」到「理解物理」的质变。
[链接] https://x.com/boyang_vLAR/status/2063676557223514490
Simon Kohl(前AlphaFold2 / Latent Labs CEO)Keynote
[摘要] 前AlphaFold2核心成员、现任Latent Labs CEO Simon Kohl发表了被多位参会者评价为「全场最精彩Keynote」的演讲。他以「预测器赋能生成模型」为核心洞见:在AlphaFold2中做的是预测器(Predictor),而在Latent Labs则转向生成器(Generator),AI设计的抗体已在十人人类panel中展示低免疫激活。这场横跨CV、计算生物学与药物设计的演讲,让在场研究者看到了视觉模型与生命科学深度交汇的巨大潜力。

[链接] https://x.com/CVPR/status/2063001229672743180?s=20
MAPS: VLA鲁棒微调框架 + VQ-VA World:具身智能方法论的集中爆发
[摘要] CVPR 2026具身智能方向以「VLA论文5倍增长、世界模型3倍增长」的数据坐实了赛道热度。MAPS提出了VLA模型鲁棒微调框架,核心发现是VLA的不同组件需要不同级别的保留与适配策略;VQ-VA World等世界模型相关论文同期亮相。这标志着具身智能从早期的单点突破阶段,正式进入系统性方法论构建阶段。
热门议题三:中国本科生顶会现象引爆网络——2人半年5个顶会、大三学生老泰坦逆袭、美团560B开源模型齐登CVPR
CVPR 2026闭幕日,最出圈的讨论不是最佳论文花落谁家,而是一群中国本科生的惊艳表现。2名本科生半年内在CVPR/ICCV/ECCV等顶级会议上狂揽5篇论文;一位大三学生仅凭一块老旧泰坦GPU完成的研究,成功获得CVPR 2026最佳学生论文提名——这条消息以极快的速度在机器之心、新智元、量子位等头部科技媒体间发酵,成为闭幕日全网最热话题。与此同时,中国科技巨头在CVPR现场同样重量级:美团正式开源560B参数的LongCat MoE大模型,字节跳动的HiFi-Inpaint图像修复新范式高调亮相,微软×清华的TRELLIS.2更是让产学研合作成果站上国际舞台。中国力量,正在以不可忽视的姿态成为CVPR的主角。
大三本科生凭老泰坦GPU斩获CVPR最佳学生论文提名
[摘要] 一名大三本科生使用一块老旧泰坦(Titan)GPU完成的研究,脱颖而出获得CVPR 2026最佳学生论文提名。该故事经量子位微信公众号首发后迅速引爆全网,机器之心、新智元等头部科技媒体陆续跟进。在算力军备竞赛愈演愈烈的今天,这一「低配逆袭」叙事击中了学术界的集体共鸣点,也让更多资源受限的高校学生看到了冲顶顶会的可能。

2名本科生半年5个顶会——中国青年学者全民出海
[摘要] 两名本科在读学生,仅用半年时间便在CVPR、ICCV、ECCV等五大顶级会议上发表了5篇论文,并在CVPR 2026上获得最佳学生论文提名。这一现象经新智元、机器之心等多家媒体报道后引发热议,折射出中国计算机视觉教育——尤其是本科阶段拔尖人才培养体系——的跨越式进步。
LongCat:美团开源560B MoE大模型(CVPR现场展出)
[摘要] 美团在CVPR 2026现场正式发布并开源LongCat模型家族:560B参数Mixture-of-Experts架构,每次推理仅需激活约27B参数,在推理速度与模型能力之间取得了出色平衡。这是中国互联网巨头在CVPR舞台上最大规模的模型开源行动之一,标志着美团AI战略从应用层向基础模型层的纵深延伸。

[链接]https://x.com/VincentLogic/status/2063877403739558179?s=20
HiFi-Inpaint:字节跳动图像修复新范式
[摘要] 字节跳动在CVPR 2026上提出HiFi-Inpaint,以全新思路解决图像修复(Image Inpainting)任务中的高频细节恢复难题。该论文经CVer公众号深度解读后获得广泛传播,成为本届CVPR中国科技企业赛道中平面视觉方向最受关注的成果之一。
[CVPR 2026完美落幕] 视觉物理时代,才刚刚开始
从D4RT的4D重建到PhysInOne的物理数据集,从中国本科生的泰坦逆袭到LongCat 560B的开源浪潮。
CVPR 2026告诉我们:计算机视觉正在从「理解图像」的时代,
大踏步迈向「理解世界」的时代——而中国,已站上这场变革的中心舞台。
>> 点击关注CVPR专题专区,获取年度综述、深度论文解读与行业趋势全盘点 <<
雷峰网原创文章,未经授权禁止转载。详情见转载须知。