0
| 本文作者: 郑佳美 | 2026-06-04 11:50 |

作者丨樊天骄、郑佳美
编辑丨郑佳美
想为手上的玻璃杯生成 3D 模型,需要几步?
拍照、扫描、建模......听上去似乎很简单,可如果你真的动手试试,得到的往往是布满孔洞、边缘扭曲的残缺结果。
这就是当前 3D 重建技术的瓶颈:无论是爆火的 3D 高斯溅射(3D Gaussian Splatting, 3DGS)、神经辐射场(Neural Radiance Fields, NeRF),还是传统的多视图立体匹配方法,都只对不反光的漫反射材质且拥有足够清晰的纹理特征的物体有效。
而对于那些具有反射、透明和低纹理表面特性的材料,现有技术可以说是束手无策,比如金属、玻璃和陶瓷。金属的反光特性会让同一物体在不同角度、不同光照下呈现截然不同的特征,玻璃的折射彻底会扭曲光线传播路径,光滑的陶瓷则缺乏可供算法匹配的特征点。
这就造成了以下现象:服务机器人想要拿起一个玻璃碗,却常常因为识别不到物体轮廓而失手;工业质检系统试图扫描抛光后的不锈钢零件时,得到的 3D 模型却总是扭曲且失真的。
算法,就像是活在一个物体都是漫反射的世界里,而真实物理世界远远比这复杂得多。
在这样的行业背景下,香港中文大学(深圳)王方鑫教授团队联合首都师范大学、南加州大学的研究者提出了《3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects》,构建了专门针对反射、透明、低纹理三类高难度物体的大规模混合 3D 重建数据集。
这项研究打造了一个包含 12 万+合成实例、1000+ 真实物体、总规模超 22 TB 的综合数据集,并建立了涵盖图像匹配、运动恢复结构、新视角合成、反射去除和重光照五大核心任务的标准化基准。

论文地址:https://arxiv.org/pdf/2605.10204

01
先说研究结论:所有当前最优的方法,都在复杂材料上的重建上出现了断崖式的性能下跌。当然,这并不能归因于个别方法或技术,这是全行业的困境。
研究团队用主流的 3DGS 方法,系统测试了 48 种不同材料参数组合下的重建性能,结果揭示了三种截然不同的失败模式。

针对光滑金属表面进行的实验结果让人大跌眼镜—— PSNR 仅为 19 dB,比高粗糙度非金属材料(35 dB)低了 45%。打个比方,算法看到一个镜面金属水壶,就像你盯着一面镜子试图判断镜子本身的样子,看到的全是周围环境的倒影。雷峰网
而透明材料在所有配置下有平均 5.82 dB 的 PSNR 下降,相当于 19.3% 的质量损失,并且折射率越高性能越差。一旦光线穿过玻璃后改变了方向,算法赖以建立对应关系的对极约束就会被彻底打破。
最后是低粗糙度表面的相关实验。因为其缺乏纹理特征,PSNR 随粗糙度从 0.0 提升至 0.9,总体可提高 5 dB,证明纹理缺失会直接导致特征匹配失效。
此外,研究团队对当前 10 余种最先进的 3D 视觉方法进行了基准测试,覆盖图像匹配、新视角合成、表面重建、反射去除和重光照五大核心任务。结果无一例外呈现断崖式下跌,暴露了现有技术在具有复杂光学现象材料面前的系统性缺陷:

作为 3D 重建流程的第一道关卡,图像匹配(Image Matching)的性能下降尤为明显。为了证实这点,研究团队在 1000 个 Roman Statue 实例上评测了 7 种主流图像匹配方法,并采用 AUC@5°、AUC@10° 和 AUC@20° 三个指标衡量相机位姿估计精度。实验结果显示,所有方法在 3DReflecNet 上的表现均明显低于 MegaDepth 数据集。雷峰网(公众号:雷峰网)

其中表现最好的 RoMa 方法在 3DReflecNet 上的 AUC@20° 仅为 59.1,而在 MegaDepth 上的对应结果达到 86.3。
同样,SuperPoint+SuperGlue 在 AUC@5° 指标上仅获得 15.2,而其在 MegaDepth 上的对应结果为 49.7。

在表面重建任务中,透明材料的 Chamfer 距离则明显高于漫反射材料,通常为漫反射材料的 2 到 8 倍。最极端的例子是 PGSR 方法:漫反射材料上的 Chamfer 距离为 0.062,而在透明材料上上升至 0.502,导致部分几何结构缺失和浮点伪影。

对于反射去除(Reflection Removal)和重光照(Relighting)任务,现有 SOTA 方法在 3DReflecNet 上的表现同样不理想,其结果与其他挑战性真实数据集相当,进一步凸显了从图像匹配到重建的全链路性能瓶颈。

因此我们可以得出这样的结论:现有算法的失败不是个别调参的问题,而是因其本身设置与真实物理世界的光学规律存在矛盾。

02
想要解析这一现象,我们需要了解现阶段算法的两种潜在逻辑。
第一种,算法会默认物体光度一致。 算法的逻辑是:同一物体表面,无论从哪个角度看颜色都基本不变。如果识别一面墙,那么显然它站在哪个方位看颜色都是一样的——对哑光表面确实如此。但如果面对的是镜面或者不锈钢呢?
那它识别的就不是金属本身,而是倒影和周围环境的镜像。这些镜像的颜色、光泽自然是各有不同。
第二种,算法默认物体均具有显著的纹理特征。也就是说只有物体表面有足够清晰的纹理,算法才能在不同视角之间建立对应关系从而进行标记。好比你在地图上靠地标定位——如果到处都是一模一样的白色平面,你根本无法判断自己在哪里。
现有 3D 重建基准数据集均围绕着这两个逻辑进行设置,这也就导致 3D 重建技术整体存在着四个致命缺陷:
其一,材料覆盖严重失衡。 几乎所有主流数据集只聚焦普通漫反射物体,对于具有反射、透明、低纹理这三类特性的材料却鲜有数据集覆盖。而那些仅有的、对这几类材料有所覆盖的数据集,它们的样本又少的可怜。比如 DTU 数据集只包含极少量玻璃物体样本,MV Reflectance 数据集不到 20 个反射物体实例,NeRO 则仅有 8 个。

我们真实世界里玻璃杯、金属水壶、陶瓷碗这类的物品成千上万、随处可见;在数据集里的样本却只能以百十个计。算法从来没见过真正的玻璃杯是什么样,自然也就不可能学会重建它。
其二,数据类型单一且与现实存在明显鸿沟。
纯合成数据集(如 OpenMaterial )往往没有真实世界的噪声、光照波动和运动模糊,因此训练出的模型在真实手机扫描场景中性能骤降;另一种纯真实数据集(如 MVImgNet )则无法提供精确的深度、法线等标注,无法定量评估复杂光学现象下的重建误差。两种数据各说各话,缺乏统一标准。
其三是任务支持狭窄。 绝大多数数据集仅支持基础重建和新视角合成,并不具备测试反射去除、重光照等工业级功能。因此,人们无法验证算法能不能去掉玻璃橱窗上的环境反光,也没法测试在不同灯光下重新渲染同一个 3D 物体的效果。

其四,数据集样本的几何多样性不足。 大多数据集的 3D 模型都来自现成商业资产库,缺乏带有罕见形状和新颖设计的特殊案例,比如工业精密零件、当代艺术品等特殊几何。因此算法在面对非标准化物体时的泛化能力极度缺乏。
针对以上诸多瓶颈,研究团队在开发 3DReflecNet 数据集时做出了如下措施:
首先在设置上,研究人员将 3DReflecNet 建设成为了 “合成+真实” 合一的数据集。 3DReflecNet 同时包含 12 万+ 高精度合成实例和 1000+ 真实世界扫描物体,总规模超 22 TB,系统覆盖 22 种高难度材料和 2700+ 真实光照条件。合成数据与真实数据的性能趋势高度一致,验证了合成数据的物理真实性。

针对几何多样性不足的问题,研究团队利用扩散模型从真实照片和 LLM(GPT-4o)生成的 2D 图像自动合成 3D 模型,使得法线估计、网格重建、姿态归一化一步到位,突破了传统资产库的几何多样性限制,生成了大量罕见和新颖的 3D 形状。
同时,该团队还用 iPhone 16 Pro 采集真实物体,先通过跟踪底座获得精确的相机位姿(Camera Pose),再用 SAM 2 分割出目标物体,巧妙绕开了复杂材料无法提供稳定特征点的难题。
在标注方面,3DReflecNet 为每个合成实例提供 60 视角、1000×1000 分辨率的 RGB 图像,以及 3D 几何(点云+网格)、物体分割掩码、稠密深度图、表面法线图等全套标注,确保所有定量评估有据可查。
此外,每个实例还配有由 Qwen3-VL-30B-A3B-Instruct 生成的详细文本描述和标签,为 text-to-3D、image-to-3D 等生成式任务提供基础。

03
3DReflecNet 最重要的价值并不只是新增了一个大规模数据集。它首次系统揭示了当前 3D 重建技术与真实物理世界之间的根本性矛盾。
长期以来,3D 视觉领域的发展建立在一个隐含前提之上:物体表面满足漫反射特性,并且拥有足够丰富的纹理信息。在这样的假设下,研究社区构建的数据集、设计的评测指标以及提出的算法框架形成了一套自洽的技术体系。
然而现实世界并不是按照算法的标准来运行的。玻璃、金属、陶瓷这些广泛存在于家庭、工业和商业场景中的材料所展现出复杂的光学现象,完全超出了算法 “光度一致性” 和 “特征对应关系” 这两套直白的逻辑。

3DReflecNet 的实验结果表明,当面对反射、透明和低纹理材料时,无论是图像匹配、运动恢复结构、新视角合成还是表面重建,当前主流方法都会出现显著性能衰减。这说明技术的关键卡点不是来自具体的某一种算法设计,而是整个技术体系对于复杂光学现象缺乏足够的建模能力。
同时该研究也为行业建立了一套统一的评测标准。过去,反光物体重建效果的优劣是一个模糊的共识——毕竟用不同的算法和不同的数据集进行不同类型的测试的确很难比较出性能高低。
而 3DReflecNet 围绕图像匹配、表面重建、新视角合成、反射去除和重光照五类核心任务构建标准化基准,使研究者能够在相同条件下客观评估算法能力,推动复杂材料 3D 重建从经验判断走向可量化评价。
从应用角度看,这一问题直接关系到服务机器人、AR/VR、数字孪生、工业检测等领域的发展。真实环境中大量目标物体都具有反射、透明或低纹理特征,如果无法准确理解这些材料的几何特征与光学属性,3D 视觉系统将始终难以完成从实验室到实际场景的跨越。
因此,3DReflecNet 所传递的信息也为整个领域指出了新的研究方向:未来的 3D 重建技术需要从单纯的几何恢复进一步走向物理世界建模,同时将不同材料属性、光照传输、反射与折射规律纳入统一框架,真正构建出在现实场景中具备物理感知能力的下一代 3D 视觉系统。

04
这篇论文的通讯作者为王方鑫博士,现为香港中文大学(深圳)助理教授、博士生导师。他分别于加拿大西蒙弗雷泽大学、清华大学、北京邮电大学取得博士、硕士、学士学位。现领导香港中文大学(深圳)智能网络与多媒体实验室,研究方向包括多媒体网络与系统,云边端协同计算,深度学习,大模型与边缘智能等。
迄今为止,他已在 SIGCOMM、TON、INFOCOM、ACMMM 等领域顶级期刊与会议发表论文六十余篇,论文总引用超 1500 次,多篇代表作聚焦强化学习赋能边缘缓存、直播优化、车载智能识别等前沿课题。
在学术服务方面,王方鑫兼任 IEEE Transactions on Mobile Computing 等多本权威期刊编委,牵头担任多项国际学术会议程序主席、出版主席,同时受聘为中国电子学会、中国计算机学会相关专委会委员及通信学会高级会员。
此外,王方鑫博士曾获 2023 广东省科技进步二等奖,入选 2022 中国科协“青年托举人才计划”,2022、2023 连续两年入选斯坦福大学 “世界前 2% 顶尖科学家榜单” ,主持和参与多项基金委、科技部、省市与横向项目。

参考链接:https://mypage.cuhk.edu.cn/academics/wangfangxin/

03
为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货,雷峰网已全面上线【CVPR 2026 深度专区】。
专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。
扫描下方二维码,或点击「阅读原文」关注专区。

与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!
雷峰网原创文章,未经授权禁止转载。详情见转载须知。