来源:公众号“视觉语言导航”
原文链接:https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58
- 作者:Tao Wu¹, Chuhao Zhou¹, Guangyu Zhao², Haozhi Cao¹, Yewen Pu¹, Jianfei Yang¹
- 论文标题:When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
- 论文链接:https://arxiv.org/abs/2512.04597
- 项目主页:https://abstaineqa.github.io/
- 代码链接:https://github.com/gibrantaowu/AbstainEQA
? 研究背景:机器人“强行作答”,藏着巨大安全隐患

随着视觉语言模型(VLMs)飞速发展,具身机器人已从实验室走向家庭场景,能在3D室内环境中导航、感知,完成具身问答(EQA)任务,成为老人陪护、家务辅助的重要帮手。

但所有现有EQA基准都存在一个致命前提:默认机器人必须回答所有问题,完全忽略真实人机交互的复杂性。
研究团队通过真实用户调研发现:
- 收集500条人类自然提问,32.4%的问题存在信息缺失、歧义或无法回答;
- 幻觉致安全事故:未查看浴室就谎称地面干燥,导致老人滑倒;
- 导航彻底失效:指代模糊的问题让机器人无目的漫游,完全浪费算力。
在家庭陪护、医疗辅助等安全敏感场景,“不知道”比“瞎回答”更重要!弃权(信息不足时拒绝作答)是可靠人机交互的最低要求,却长期被学界忽视。
? 核心贡献:四大突破,重新定义具身问答标准
- 首创弃权分类体系:基于人类认知理论+真实交互数据,提炼5类必须弃权的场景,为具身问答不确定性提供系统化判定依据。
- 发布 AbstainEQA 基准:全球首个人工标注的具身问答弃权基准,包含1636个弃权案例+1636个常规案例,经数据扩充后总样本达16360条,配套帧级视觉证据标注。
- 全方位模型评测:从模型规模、提示策略、微调方法三大维度,系统性测试当前顶尖具身模型,揭露现有方法的核心缺陷。
- 深度错误分析:明确模型弃权失效的根本原因,为后续安全、可靠的具身交互研究指明方向。
❓ 问题描述:从“必须作答”到“学会弃权”
本文将传统具身问答(EQA)升级为AbstainEQA,核心要求:智能体在证据不足、问题歧义时,主动弃权而非强行作答。
形式化定义(极简版)
给定用户问题和机器人视觉观测序列,机器人需自主决策:
两大评测场景
- 情景记忆EQA(EM-EQA):机器人仅用已看到的画面作答,不额外探索;
- 主动EQA(A-EQA):机器人可在限定步数内导航探索,再决定作答或弃权。
? AbstainEQA 基准:科学定义“什么时候该说不知道”

1. 弃权需求:真实交互中,1/3问题无法回答
团队招募50名普通用户,基于HM3D、ScanNet真实室内场景生成自然提问,最终证实:32.4%的人类问题需要机器人弃权,弃权是人机交互的固有需求。
2. 五大弃权类型(核心判定标准)
基于Norman人类认知错误理论,精准划分5类必须弃权的场景,覆盖所有真实歧义情况:
| | |
|---|
| 可执行性限制(AL) | | |
| 指代不明确(RU) | | |
| 信息不可用(IU) | | |
| 错误预设(FP) | | |
| 偏好依赖(PD) | | |
3. 数据集亮点
- 均衡配比:1636个弃权案例 + 1636个常规可回答案例,公平评测;
- 帧级标注:人工标记支撑答案/弃权的关键画面,绑定视觉证据;
- 数据扩充:通过LLM生成5种语义变体,覆盖多样化表达。
? 评估标准:三维度科学评测,结果可信可复现
为全面衡量机器人的弃权能力,团队设计三维度评估体系,并通过人类验证确保结果可靠:
- 回答准确率:用GPT-4o做语义匹配,评估机器人答案的准确性,避免主观偏差。
- 弃权识别能力:核心计算召回率、精确率、F1值、准确率,判断机器人能否精准识别需要弃权的问题。
- 具身导航效率:针对主动EQA,评测导航成功率、探索帧数、路径长度,看弃权问题是否影响机器人行动。
- 人类验证:LLM自动评估与人类标注的皮尔逊相关系数达0.88,评估结果高度可靠。
? 实验结果:颠覆认知!现有模型根本不会“说不知道”
团队围绕4个核心问题展开实验,结论直击领域痛点:
1. 顶尖模型弃权能力,仅达人类一半

- 最优模型Gemini-2.5-Pro:弃权召回率42.79% ;
- 模型仅在“信息不可用”上表现稍好,指代模糊、主观偏好类问题几乎完全失效。

2. 模型做大没用,跨模态对齐才是关键
- 同系列模型(如Qwen):参数扩大,弃权能力小幅提升;
- 跨模型对比:参数规模不决定弃权能力,模型架构、跨模态对齐才是核心。
3. 提示、推理都是“表面功夫”
- 加提示词:弃权召回率飙升,但精确率暴跌,机器人开始过度弃权;
- 加推理步骤:大模型弃权能力不升反降,只会说废话,不会真判断。
4. 微调模型:全是“作弊”,只看文字不看画面

监督微调(SFT)模型看似指标拉满,实则严重过拟合文本特征:
- 同样的问题,不管场景如何,答案完全一样,完全无视视觉证据。
5. 弃权问题,直接摧毁导航效率
歧义问题下:
- 导航成功率:77.17% → 61.41% ,暴跌15个百分点;
- 机器人陷入两极分化:要么过早停止探索,要么无目的乱逛,导航完全失效。
? 研究结论:具身机器人,先学会“说不知道”
- 现有具身问答模型,完全不具备可靠弃权能力,无法识别歧义、信息缺失问题,暗藏安全风险;
- 模型缩放、提示工程、显式推理、监督微调,都只是表面优化,模型依赖文字捷径,未真正结合视觉证据;
- 歧义问题会导致具身导航低效、不稳定,严重影响人机交互安全性与实用性。
未来方向:研发绑定视觉证据的弃权推理模型、打造不确定性感知导航策略、消除文本捷径的训练范式,让机器人真正学会“知之为知之,不知为不知”。