您正在使用IE低版浏览器，为了您的雷峰网账号安全和更好的产品体验，强烈建议使用更快更安全的浏览器

此为临时链接，仅用于文章预览，将在时失效

人工智能正文

发私信给陈淑瑜

发送

0

CVPR-2026 Highlight | 机器人如何“知之为知之”！AbstainEQA：具身问答弃权能力基准重磅发布

本文作者：陈淑瑜

2026-05-29 17:35

专题：CVPR 计算机视觉与模式识别会议

导语：南洋理工大学MARS Lab与NPL Lab联合打造首个具身问答弃权基准AbstainEQA，实测发现顶尖模型弃权能力仅达人类47%，为安全人机交互划定全新标准

来源：公众号“视觉语言导航”

原文链接：https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58

作者：Tao Wu¹, Chuhao Zhou¹, Guangyu Zhao², Haozhi Cao¹, Yewen Pu¹, Jianfei Yang¹
单位：¹南洋理工大学，²北京大学
论文标题：When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
论文链接：https://arxiv.org/abs/2512.04597
项目主页：https://abstaineqa.github.io/
代码链接：https://github.com/gibrantaowu/AbstainEQA

? 研究背景：机器人“强行作答”，藏着巨大安全隐患

CVPR-2026 Highlight | 机器人如何“知之为知之”！AbstainEQA：具身问答弃权能力基准重磅发布

随着视觉语言模型（VLMs）飞速发展，具身机器人已从实验室走向家庭场景，能在3D室内环境中导航、感知，完成具身问答（EQA）任务，成为老人陪护、家务辅助的重要帮手。

CVPR-2026 Highlight | 机器人如何“知之为知之”！AbstainEQA：具身问答弃权能力基准重磅发布

但所有现有EQA基准都存在一个致命前提：默认机器人必须回答所有问题，完全忽略真实人机交互的复杂性。

研究团队通过真实用户调研发现：

收集500条人类自然提问，32.4%的问题存在信息缺失、歧义或无法回答；
机器人强行作答会引发两大灾难：

幻觉致安全事故：未查看浴室就谎称地面干燥，导致老人滑倒；
导航彻底失效：指代模糊的问题让机器人无目的漫游，完全浪费算力。

在家庭陪护、医疗辅助等安全敏感场景，“不知道”比“瞎回答”更重要！弃权（信息不足时拒绝作答）是可靠人机交互的最低要求，却长期被学界忽视。

? 核心贡献：四大突破，重新定义具身问答标准

首创弃权分类体系：基于人类认知理论+真实交互数据，提炼5类必须弃权的场景，为具身问答不确定性提供系统化判定依据。
发布 AbstainEQA 基准：全球首个人工标注的具身问答弃权基准，包含1636个弃权案例+1636个常规案例，经数据扩充后总样本达16360条，配套帧级视觉证据标注。
全方位模型评测：从模型规模、提示策略、微调方法三大维度，系统性测试当前顶尖具身模型，揭露现有方法的核心缺陷。
深度错误分析：明确模型弃权失效的根本原因，为后续安全、可靠的具身交互研究指明方向。

❓ 问题描述：从“必须作答”到“学会弃权”

本文将传统具身问答（EQA）升级为AbstainEQA，核心要求：智能体在证据不足、问题歧义时，主动弃权而非强行作答。

形式化定义（极简版）

给定用户问题和机器人视觉观测序列，机器人需自主决策：

选择answer：基于视觉证据给出准确答案；
选择abstain：明确说明无法回答的理由。

两大评测场景

情景记忆EQA（EM-EQA）：机器人仅用已看到的画面作答，不额外探索；
主动EQA（A-EQA）：机器人可在限定步数内导航探索，再决定作答或弃权。

? AbstainEQA 基准：科学定义“什么时候该说不知道”

CVPR-2026 Highlight | 机器人如何“知之为知之”！AbstainEQA：具身问答弃权能力基准重磅发布

1. 弃权需求：真实交互中，1/3问题无法回答

团队招募50名普通用户，基于HM3D、ScanNet真实室内场景生成自然提问，最终证实：32.4%的人类问题需要机器人弃权，弃权是人机交互的固有需求。

2. 五大弃权类型（核心判定标准）

基于Norman人类认知错误理论，精准划分5类必须弃权的场景，覆盖所有真实歧义情况：

类型	核心含义	通俗场景示例
可执行性限制（AL）	需物理交互，纯视觉无法完成	问“盒子里有什么”，机器人打不开盒子
指代不明确（RU）	描述对应多个物体，无法定位	问“白色柜子上有什么”，房间有多个白柜
信息不可用（IU）	关键时空信息缺失，无法推理	问“谁把花瓶放桌上”，机器人没看到过程
错误预设（FP）	问题前提与事实矛盾	问“床上泰迪熊材质”，床上根本没有泰迪熊
偏好依赖（PD）	依赖主观审美，无客观答案	问“墙上的画好看吗”，无统一标准答案

3. 数据集亮点

均衡配比：1636个弃权案例 + 1636个常规可回答案例，公平评测；
帧级标注：人工标记支撑答案/弃权的关键画面，绑定视觉证据；
数据扩充：通过LLM生成5种语义变体，覆盖多样化表达。

? 评估标准：三维度科学评测，结果可信可复现

为全面衡量机器人的弃权能力，团队设计三维度评估体系，并通过人类验证确保结果可靠：

回答准确率：用GPT-4o做语义匹配，评估机器人答案的准确性，避免主观偏差。
弃权识别能力：核心计算召回率、精确率、F1值、准确率，判断机器人能否精准识别需要弃权的问题。
具身导航效率：针对主动EQA，评测导航成功率、探索帧数、路径长度，看弃权问题是否影响机器人行动。
人类验证：LLM自动评估与人类标注的皮尔逊相关系数达0.88，评估结果高度可靠。

? 实验结果：颠覆认知！现有模型根本不会“说不知道”

团队围绕4个核心问题展开实验，结论直击领域痛点：

1. 顶尖模型弃权能力，仅达人类一半

CVPR-2026 Highlight | 机器人如何“知之为知之”！AbstainEQA：具身问答弃权能力基准重磅发布

最优模型Gemini-2.5-Pro：弃权召回率42.79% ；
普通人类：弃权召回率91.17% ；
模型仅在“信息不可用”上表现稍好，指代模糊、主观偏好类问题几乎完全失效。

CVPR-2026 Highlight | 机器人如何“知之为知之”！AbstainEQA：具身问答弃权能力基准重磅发布

2. 模型做大没用，跨模态对齐才是关键

同系列模型（如Qwen）：参数扩大，弃权能力小幅提升；
跨模型对比：参数规模不决定弃权能力，模型架构、跨模态对齐才是核心。

3. 提示、推理都是“表面功夫”

加提示词：弃权召回率飙升，但精确率暴跌，机器人开始过度弃权；
加推理步骤：大模型弃权能力不升反降，只会说废话，不会真判断。

4. 微调模型：全是“作弊”，只看文字不看画面

CVPR-2026 Highlight | 机器人如何“知之为知之”！AbstainEQA：具身问答弃权能力基准重磅发布

监督微调（SFT）模型看似指标拉满，实则严重过拟合文本特征：

随机删掉/换掉视觉画面，模型性能几乎不变；
同样的问题，不管场景如何，答案完全一样，完全无视视觉证据。

5. 弃权问题，直接摧毁导航效率

歧义问题下：

导航成功率：77.17% → 61.41% ，暴跌15个百分点；
机器人陷入两极分化：要么过早停止探索，要么无目的乱逛，导航完全失效。

? 研究结论：具身机器人，先学会“说不知道”

现有具身问答模型，完全不具备可靠弃权能力，无法识别歧义、信息缺失问题，暗藏安全风险；
模型缩放、提示工程、显式推理、监督微调，都只是表面优化，模型依赖文字捷径，未真正结合视觉证据；
歧义问题会导致具身导航低效、不稳定，严重影响人机交互安全性与实用性。

未来方向：研发绑定视觉证据的弃权推理模型、打造不确定性感知导航策略、消除文本捷径的训练范式，让机器人真正学会“知之为知之，不知为不知”。

0人收藏

分享：

相关文章

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

more

陈淑瑜

编辑

发私信

当月热门文章

最新文章

热门搜索

5G 比特币自然语言处理抖音工业互联网 AMD iPhone 5 出门问问风控苹果公司本周锋闻

为了您的账户安全，请验证邮箱

您的邮箱还未验证,完成可获20积分哟！

重发邮箱修改邮箱

请验证您的邮箱

立即验证

完善账号信息

您的账号已经绑定，现在您可以设置密码以方便用邮箱登录

立即设置 以后再说