4 篇中稿 CVPR/ICRA！地瓜机器人 2026 顶会捷报，解锁具身智能四大核心突破

本文作者：陈淑瑜

2026-05-26 15:09

专题：CVPR 计算机视觉与模式识别会议

导语：地瓜机器人 4 篇论文强势入选 CVPR 2026（计算机视觉顶会）与 ICRA 2026（机器人顶会）

来源：地瓜机器人

原文链接：https://mp.weixin.qq.com/s/WQiXlk18j1ls8XHiGkQpcQ

四大核心技术拆解：从学术创新到落地价值

CVPR 2026 | 3D-Fixer：

单图生成可交互 3D 场景，解锁 “原位补全” 新范式

4 篇中稿 CVPR/ICRA！地瓜机器人 2026 顶会捷报，解锁具身智能四大核心突破

链接：

https://openreview.net/login?redirect=/forum?id%3Dc0ei5M02Ej%26referrer%3D%255BAuthor%2520Console%255D%2528%252Fgroup%253Fid%253Dthecvf.com%252FCVPR%252F2026%252FConference%252FAuthors%2523your-submissions%2529

核心痛点：

传统 3D 场景生成难平衡推理效率与几何保真度，复杂遮挡下重建边界模糊。首创「原位补全」范式，无需显式姿态对齐，以场景几何线索为锚点，通过 “粗结构补全 + 精细形状优化” 双模块，融合 2D 纹理与 3D 几何特征，解决遮挡重建难题。行业突破：开源全球最大场景级数据集 ARSG-110K（110K + 场景、300 万 + 标注图），实现 SOTA 级几何重建精度，同时保持高效前馈推理。落地价值：为元宇宙场景构建、机器人 3D 环境感知提供低成本高效解决方案。

CVPR 2026 | Uni3R：

纯视觉多任务 “一体机”，打破表征割裂壁垒

文章：

https://arxiv.org/pdf/2508.03643

核心痛点：

现有 3D 方案存在计算冗余，感知、重建、渲染任务相互割裂，协同效率低。技术亮点：创新「感知 - 重建 - 渲染一体化」架构，仅需纯视觉输入，在统一隐式表征空间内并行完成高保真 3D 重建、语义分割、新视角合成三大任务。行业认可：代码开源即获 GitHub 115+ Stars，成为多任务空间感知领域标杆方案。落地价值：降低机器人、AR/VR 设备的多任务处理成本，提升复杂场景适配能力。

Uni3R 旨在解决现有 3D 方案中存在的计算冗余与表征割裂痛点。该方案创新性地提出了一套感知-重建-渲染一体化架构，仅需纯视觉输入，即可在统一的隐式表征空间内，并行实现高保真 3D 重建、精细化语义分割与新视角合成三大核心任务，显著提升了多任务协同效率。代码开源后迅速获得社区高度认可（115+ Stars）。模型架构分为 Geometry Foundation Model 和 Semantic Foundation Model，通过 Cross-View Transformer 处理后，分别进入 GS Head、Feat Head 和 Point Head，实现多任务输出。

CVPR 2026 | MarketGen：

超市场景仿真 “神器”，加速商业机器人落地

文章：

https://arxiv.org/abs/2511.21161

核心痛点：

商业场景仿真缺失，传统平台局限于家居 / 桌面，商超机器人训练缺乏真实场景支撑。技术亮点：基于智能体 + PCG 框架，支持文本 / 图片多模态输入，自动生成结构化超市场景；内置 1100 + 商品 3D 资产库，配套收银台卸货、通道取货两大评估基准。落地价值：为商超服务机器人提供低成本、高保真训练环境，大幅缩短商业机器人研发周期。

ICRA 2026 | VO-DP：

纯视觉操作 “逆袭” 3D 点云，突破硬件依赖瓶颈

文章：

https://arxiv.org/pdf/2510.15530v1

核心痛点：

传统纯视觉机器人操作精度不足，3D 点云方案依赖昂贵深度传感器，落地成本高。技术升级：将 CNN 策略头升级为 DiT（扩散 Transformer）架构，支持多视角输入，融合语义 - 几何自适应特征。性能突破：纯视觉方案实现与 3D 点云方案性能 “对齐甚至超越”，无需昂贵硬件即可达成高精度操作。落地价值：适配家用 / 商用机器人多场景，降低硬件门槛，推动消费级机器人规模化落地。

技术硬实力背后：地瓜机器人的创新基因

4 篇顶会论文的突破，源于地瓜机器人对具身智能核心技术的深耕 —— 核心团队来自华科、北科、北航、复旦、中科院、地平线研究院等顶尖院校与企业，聚焦 “纯视觉感知”“复杂场景适配”“低成本落地” 三大方向，通过开源数据集、代码库反哺行业，推动技术生态共建。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章