您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR-2026 Highlight | 机器人如何“知之为知之”!AbstainEQA:具身问答弃权能力基准重磅发布

本文作者: 陈淑瑜   2026-05-29 17:35 专题:CVPR 计算机视觉与模式识别会议
导语:南洋理工大学MARS Lab与NPL Lab联合打造首个具身问答弃权基准AbstainEQA,实测发现顶尖模型弃权能力仅达人类47%,为安全人机交互划定全新标准

来源:公众号“视觉语言导航”

原文链接:https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58


  • 作者:Tao Wu¹, Chuhao Zhou¹, Guangyu Zhao², Haozhi Cao¹, Yewen Pu¹, Jianfei Yang¹
  • 单位:¹南洋理工大学,²北京大学
  • 论文标题:When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
  • 论文链接:https://arxiv.org/abs/2512.04597
  • 项目主页:https://abstaineqa.github.io/
  • 代码链接:https://github.com/gibrantaowu/AbstainEQA

? 研究背景:机器人“强行作答”,藏着巨大安全隐患

CVPR-2026 Highlight | 机器人如何“知之为知之”!AbstainEQA:具身问答弃权能力基准重磅发布

随着视觉语言模型(VLMs)飞速发展,具身机器人已从实验室走向家庭场景,能在3D室内环境中导航、感知,完成具身问答(EQA)任务,成为老人陪护、家务辅助的重要帮手。

CVPR-2026 Highlight | 机器人如何“知之为知之”!AbstainEQA:具身问答弃权能力基准重磅发布

所有现有EQA基准都存在一个致命前提默认机器人必须回答所有问题,完全忽略真实人机交互的复杂性。

研究团队通过真实用户调研发现:

  • 收集500条人类自然提问,32.4%的问题存在信息缺失、歧义或无法回答
  • 机器人强行作答会引发两大灾难:
  1. 幻觉致安全事故:未查看浴室就谎称地面干燥,导致老人滑倒;
  2. 导航彻底失效:指代模糊的问题让机器人无目的漫游,完全浪费算力。

在家庭陪护、医疗辅助等安全敏感场景,“不知道”比“瞎回答”更重要!弃权(信息不足时拒绝作答)是可靠人机交互的最低要求,却长期被学界忽视。

? 核心贡献:四大突破,重新定义具身问答标准

  1. 首创弃权分类体系:基于人类认知理论+真实交互数据,提炼5类必须弃权的场景,为具身问答不确定性提供系统化判定依据。
  2. 发布 AbstainEQA 基准:全球首个人工标注的具身问答弃权基准,包含1636个弃权案例+1636个常规案例,经数据扩充后总样本达16360条,配套帧级视觉证据标注。
  3. 全方位模型评测:从模型规模、提示策略、微调方法三大维度,系统性测试当前顶尖具身模型,揭露现有方法的核心缺陷
  4. 深度错误分析:明确模型弃权失效的根本原因,为后续安全、可靠的具身交互研究指明方向。

❓ 问题描述:从“必须作答”到“学会弃权”

本文将传统具身问答(EQA)升级为AbstainEQA,核心要求:智能体在证据不足、问题歧义时,主动弃权而非强行作答

形式化定义(极简版)

给定用户问题和机器人视觉观测序列,机器人需自主决策:

  • 选择answer:基于视觉证据给出准确答案;
  • 选择abstain:明确说明无法回答的理由。

两大评测场景

  1. 情景记忆EQA(EM-EQA):机器人仅用已看到的画面作答,不额外探索;
  2. 主动EQA(A-EQA):机器人可在限定步数内导航探索,再决定作答或弃权。

? AbstainEQA 基准:科学定义“什么时候该说不知道”

CVPR-2026 Highlight | 机器人如何“知之为知之”!AbstainEQA:具身问答弃权能力基准重磅发布

1. 弃权需求:真实交互中,1/3问题无法回答

团队招募50名普通用户,基于HM3D、ScanNet真实室内场景生成自然提问,最终证实:32.4%的人类问题需要机器人弃权,弃权是人机交互的固有需求。

2. 五大弃权类型(核心判定标准)

基于Norman人类认知错误理论,精准划分5类必须弃权的场景,覆盖所有真实歧义情况:

类型
核心含义
通俗场景示例
可执行性限制(AL)
需物理交互,纯视觉无法完成
问“盒子里有什么”,机器人打不开盒子
指代不明确(RU)
描述对应多个物体,无法定位
问“白色柜子上有什么”,房间有多个白柜
信息不可用(IU)
关键时空信息缺失,无法推理
问“谁把花瓶放桌上”,机器人没看到过程
错误预设(FP)
问题前提与事实矛盾
问“床上泰迪熊材质”,床上根本没有泰迪熊
偏好依赖(PD)
依赖主观审美,无客观答案
问“墙上的画好看吗”,无统一标准答案

3. 数据集亮点

  • 均衡配比:1636个弃权案例 + 1636个常规可回答案例,公平评测;
  • 帧级标注:人工标记支撑答案/弃权的关键画面,绑定视觉证据;
  • 数据扩充:通过LLM生成5种语义变体,覆盖多样化表达。

? 评估标准:三维度科学评测,结果可信可复现

为全面衡量机器人的弃权能力,团队设计三维度评估体系,并通过人类验证确保结果可靠:

  1. 回答准确率:用GPT-4o做语义匹配,评估机器人答案的准确性,避免主观偏差。
  2. 弃权识别能力:核心计算召回率、精确率、F1值、准确率,判断机器人能否精准识别需要弃权的问题。
  3. 具身导航效率:针对主动EQA,评测导航成功率、探索帧数、路径长度,看弃权问题是否影响机器人行动。
  4. 人类验证:LLM自动评估与人类标注的皮尔逊相关系数达0.88,评估结果高度可靠。

? 实验结果:颠覆认知!现有模型根本不会“说不知道”

团队围绕4个核心问题展开实验,结论直击领域痛点:

1. 顶尖模型弃权能力,仅达人类一半

CVPR-2026 Highlight | 机器人如何“知之为知之”!AbstainEQA:具身问答弃权能力基准重磅发布
  • 最优模型Gemini-2.5-Pro:弃权召回率42.79% ;
  • 普通人类:弃权召回率91.17% ;
  • 模型仅在“信息不可用”上表现稍好,指代模糊、主观偏好类问题几乎完全失效
CVPR-2026 Highlight | 机器人如何“知之为知之”!AbstainEQA:具身问答弃权能力基准重磅发布

2. 模型做大没用,跨模态对齐才是关键

  • 同系列模型(如Qwen):参数扩大,弃权能力小幅提升;
  • 跨模型对比:参数规模不决定弃权能力,模型架构、跨模态对齐才是核心。

3. 提示、推理都是“表面功夫”

  • 加提示词:弃权召回率飙升,但精确率暴跌,机器人开始过度弃权;
  • 加推理步骤:大模型弃权能力不升反降,只会说废话,不会真判断。

4. 微调模型:全是“作弊”,只看文字不看画面

CVPR-2026 Highlight | 机器人如何“知之为知之”!AbstainEQA:具身问答弃权能力基准重磅发布

监督微调(SFT)模型看似指标拉满,实则严重过拟合文本特征

  • 随机删掉/换掉视觉画面,模型性能几乎不变;
  • 同样的问题,不管场景如何,答案完全一样,完全无视视觉证据。

5. 弃权问题,直接摧毁导航效率

歧义问题下:

  • 导航成功率:77.17% → 61.41% ,暴跌15个百分点;
  • 机器人陷入两极分化:要么过早停止探索,要么无目的乱逛,导航完全失效。

? 研究结论:具身机器人,先学会“说不知道”

  1. 现有具身问答模型,完全不具备可靠弃权能力,无法识别歧义、信息缺失问题,暗藏安全风险;
  2. 模型缩放、提示工程、显式推理、监督微调,都只是表面优化,模型依赖文字捷径,未真正结合视觉证据;
  3. 歧义问题会导致具身导航低效、不稳定,严重影响人机交互安全性与实用性。

未来方向:研发绑定视觉证据的弃权推理模型、打造不确定性感知导航策略、消除文本捷径的训练范式,让机器人真正学会“知之为知之,不知为不知”。

CVPR-2026 Highlight | 机器人如何“知之为知之”!AbstainEQA:具身问答弃权能力基准重磅发布

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说