您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军

本文作者: 陈淑瑜   2026-06-05 18:43 专题:CVPR 计算机视觉与模式识别会议
导语:小米机器人团队在 CVPR 2026 和 ICRA 2026 WBC赛道斩获双料冠军,充分彰显小米机器人团队在具身智能领域的前沿研发水平。

来源:公众号“小米技术”

原文链接:https://mp.weixin.qq.com/s/HcGx942SZYWmXyOnacPcUQ?scene=1&click_id=38


近日,小米机器人团队在 CVPR 2026 Workshops-GigaBrain Challenge-RoboChallenge Track 和 ICRA 2026 WBC(Whole Body Control)赛道斩获双料冠军,充分彰显小米机器人团队在具身智能领域的前沿研发水平。


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军
CVPR 2026 Workshops 现场领奖

CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军

ICRA 2026 WBC 现场领奖


01

VLM+世界模型,双模型赋能长程精细操控

CVPR 2026 Workshops-GigaBrain Challenge-RoboChallenge Track 系列任务共30个超难度真实任务,包括双臂灵巧任务、覆盖柔性物体操作、工具因果推理和跨平台鲁棒性,需进行10次连续无干扰测试,提交统一多任务模型,注重考验模型泛化能力。


参赛模型「my16」为 WAM 模型, 是面向真实机器人场景自研的「大小脑 + 长短期记忆」世界动作模型。在 RoboChallenge CVPR 2026 真机评测系列任务中成功率(Success Rate)以显著优势位居参赛模型首位,达40.89%,是本届赛事唯一突破40%成功率门槛的模型,综合排名位列总榜第一名。


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军
CVPR 2026 Workshops 获奖证书

CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军
CVPR 2026 Workshops-GigaBrain Challenge-RoboChallenge Track 最终排行榜:「my16」整体成功率达到40.89%,位列第一

该模型,通过S1/S2 双系统 + 长短期记忆 + 跨本体预训练的整体架构,把三项突出长板能力有机融合到一个统一的模型中,其既具备大模型的认知深度,又具备控制器的执行精度,更具备记忆系统的长程稳定性。

双臂协同:世界模型与多模态大脑协同

双臂协同是机器人操作中最难的任务之一,本质上需要两个层次的协同:高层的角色分工(哪只手主动、哪只手辅助、左右手时序如何切换)与低层的轨迹一致性(双臂在共享工作空间中如何规避冲突、力交互如何平衡)。任何一层失效,整个任务都会崩溃。



「my16」具备「显式高层分工 + 显式低层一致性」双层机制,通过大型多模态模型作为 S2 大脑完成高层角色分工与子目标分配,在执行任务过程中,左右臂明显具备分工。并且通过世界模型作为 S1 小脑对双臂未来轨迹进行隐式建模与一致性约束,从机制层面规避了双手轨迹冲突与抢占共享空间的问题。同期方案要么只有 VLA 的高层分工但缺乏轨迹一致性约束,要么只有控制器的轨迹规划但缺乏语义层分工,都无法在多步双臂任务上稳定通关。


基于这种双层机制,多任务的SR分项性能领跑榜单,如“书本归位”(put_the_books_back)60%、“开抽屉放物”(place_objects_into_desk_drawer)90%(9× baseline)、“放笔筒”(put_in_pen_container) 50%(仅 「my16 」非零)。


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军

长程任务:双轨记忆机制

长时序/多步骤的长程任务,是最能区分有无长期记忆的高难度挑战。整个任务序列中包含多阶段子步骤,这就意味着当前动作的最优解不仅取决于当前观测,更取决于我刚才做了什么任务整体进展到哪一步,即需要任务状态跟踪与阶段切换感知。



首次将「显式的长期任务记忆 + 显式的短期动作记忆」双轨记忆机制深度落地到 WAM 架构中:长期记忆负责跟踪整体任务进展与子目标完成状态,让模型“记得整体规划”;短期记忆负责捕获最近几个时间步的动作与观测,让模型“记得刚做了什么”。同期方案要么完全无记忆(如纯 VLA、纯扩散策略),要么仅有隐式记忆(依赖 Transformer 自注意力但缺乏显式状态跟踪),都无法在真机评测中稳定收敛。


双轨记忆机制直接转化为“按按钮”(press_the_button90%、“小勺舀取”(scoop_with_a_small_spoon40%(4× baseline)、“盖章定位”(stamp_positioning )30%(3× baseline)的硬指标领先。


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军

精细操作:大规模 Human-centric 视频预训练

精细操作的核心瓶颈是动得准,对动作的最后一厘米精度提出了高要求。细粒度或毫米级精度的视觉对齐与精细动作生成能力,是无法仅靠机器人本体采集的有限数据训练出来。



模型在预训练阶段引入了大规模、且贴近真实物理操作分布的 human-centric 视频预训练数据,让模型从海量人类操作视频中学习物体精细结构、手-物交互模式、目标对齐先验与精细动作语义,即获取人类完成同样任务时最丰富且最有代表性的视觉-动作分布集。从而模型具备强大的视觉定位与精细动作生成能力。同期方案要么只用机器人本体数据(数据量受限、覆盖窄),要么只用通用互联网视频(缺乏 human-centric 的操作密度),都无法在精细操作上达到较高精度水平。


在多种精细操作任务中表现亮眼,如“打开灯开关”(turn_on_the_light_switch50%(5× baseline)、“挂杯子”(hang_the_cup) 50%、“物品分类”(item_classification)60%。


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军


02

高保真数字孪生机器人全身操作的 Sim-to-Real 闭环

ICRA 2026 WBC 挑战赛道面向超市场景,要求机器人在16种大类,20个小类别不同饮料中,根据指令从货架上抓取指定饮料,并将饮料放入购物车。任务看似日常,但完整链路覆盖了环境感知、自主移动、全身姿态调整、单/双臂抓取与放置执行,是对机器人真实作业能力的综合考验。


在本次评测中,小米团队综合得分达到99.2分,接近满分;整体成功率达到94%,是榜单中唯一成功率超过90%的方案,并较第二名高出10个百分点。其中,简单任务成功率100%复杂任务成功率90%


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军
ICRA 2026 WBC 获奖证书

CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军
ICRA 2026 WBC 最终排行榜:「my grasper」整体成功率达到94%,位列第一


核心技术路径:高保真数字孪生 + Sim-to-Real 闭环

团队在本次评测中采用的核心技术路径,是面向高可靠机器人任务的高保真数字孪生 + Sim-to-Real 闭环


对于环境结构明确,物体类别有限,作业节拍要求高的任务,无法依赖大量真机试错,需要尽可能在仿真环境中完成任务建模、策略验证和失败样例回归。


仿真环境操作(左)与真机操作(右)对比

式 3D资产建模:构建可渲染、可计算、可交互的物体资产

在资产构建环节,团队基于生成式 3D 资产建模能力,快速构建饮料、货架、购物车等关键物体资产。生成后的模型并不会直接进入仿真系统,而是需要经过一系列面向机器人任务的资产规范化处理,包括真实尺度标定、网格拓扑整理以及碰撞几何简化。


这一步的关键,是让 3D 资产同时满足两类需求:一方面具备接近真实的视觉外观,用于感知和渲染验证;另一方面具备稳定的几何表达和碰撞体,用于可达性分析、碰撞检测和接触交互仿真。换句话说,资产不只是“看起来像”,还要“能被机器人正确计算和操作”。

物理属性补全:从几何模型到可交互实体

仅有几何模型还不足以支撑机器人任务验证。为了让仿真中的物体具备接近真实的交互响应,团队进一步结合视觉语言模型(VLM)与几何先验,对关键物体的物理属性进行补全,包括质量范围、摩擦系数、阻尼、质心位置和碰撞体类型等。


例如,饮料瓶、货架、购物车和地面在仿真中应具备不同的质量、摩擦和碰撞响应。通过语义类别、几何形态和任务上下文联合估计物理参数,系统可以让仿真物体不只是具备外观形状,也能在抓、推、拿、放、搬等交互过程中表现出更接近真实环境的物理特性。

1:1 数字孪生场景:几何、尺度与坐标系统一

在场景搭建上,团队根据真实评测环境进行1:1数字孪生建模,对机器人本体、货架结构、购物车位置、饮料摆放、相机位姿和工作空间边界进行统一对齐。


相比只关注视觉效果的仿真场景,这套数字孪生更强调机器人任务所需的几何一致性、尺度一致性、坐标一致性和接触一致性。其中,几何一致性决定机器人能否正确规划站位和抓取路径;尺度一致性决定仿真中的可达性判断能否迁移到真实环境;坐标一致性决定相机观测、机器人位姿和物体位置能否在同一空间中稳定闭环;接触一致性则直接影响抓取、搬运和放置动作的可靠性。


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军

仿真环境(左)VS 真实环境(右)

任务级闭环验证:在仿真中提前暴露失败模式

基于高保真数字孪生环境,团队在真实评测前完成任务级闭环验证:包括观察位选择、底盘站位、双臂可达性、抓取碰撞风险、目标放置稳定性等关键环节。仿真不只是用于展示场景,而是作为算法迭代和系统回归的核心工具。


通过这种方式,场景覆盖不足、视角不稳定、站位偏差、末端不可达、碰撞风险等问题都可以在仿真中提前暴露并修正。最终方案无需依赖大量真机闭环迭代,就能在真实评测中取得94%成功率99.2分的接近满分成绩。


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军

ICRA 2026 WBC 最终成绩:my grasper 真实评测中取得94%成功率和99.2分

从赛场到工厂:面向真实产线的 Sim-to-Real 能力

赛道展示的是超市场景,背后的技术路线与工厂机器人落地高度一致。


在真实工厂产线中,机器人需要面对固定工站、固定节拍和高可靠性要求,单次失败会带来较高成本,不能依赖长时间占用真实产线反复调试。更可行的路径是构建与真实工站一致的高保真数字孪生环境,把机器人、工装、物料、传感器和动作节拍统一纳入仿真闭环。


在复杂工厂场景中,小米机器人团队利用多视角三维重建与3D Gaussian Splatting(3DGS等技术,对工站中的场景进行三维重建。相比传统显式网格重建,3DGS 对复杂光照、材质反射和细节纹理处理能力更强,能够在较高渲染效率下生成接近真实相机观测的视觉场景。这对于模型训练和评估都具有重要价值。


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军

自攻螺母上件工站仿真工装


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军

自攻螺母上件工站真实工装


这样构建出的工站数字孪生,不只是“看起来像真实工厂”,而是能够支持机器人在其中完成抓取、推动、碰撞、装配、搬运等可交互操作。也正是依托这套能力,算法可以先在仿真中完成开发、验证和失败回归,再迁移到真实产线环境中,从而显著降低真机调试成本,提高部署效率。


在真实环境中,机器人在多任务中实现高成功率,并非仅靠单点算法突破,而是更依托于高泛化能力的通用基座模型、高保真数字孪生、任务级闭环验证和稳定 Sim-to-Real 迁移等形成的系统化工程能力。小米始终坚持长期主义研发路线,持续深耕具身智能领域,致力于让全球每个人都能享受科技带来的美好生活。


CVPR 2026 Workshops & ICRA 2026 WBC:小米机器人团队问鼎双料冠军

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说