0
| 本文作者: 陈淑瑜 | 2026-06-04 14:31 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:公众号“Knowin诺因”
原文链接:https://mp.weixin.qq.com/s/t-o34_8wWAjMD6YBp7Nwqw
CVPR 2026 EgoVis Workshop 首届 EgoCross Challenge 挑战赛结果正式揭晓!诺因智能(Knowin)凭借自研高效推理技术,一举拿下Source-Limited、Open-Source 双赛道全球第一名,实现该赛事双赛道满贯夺冠!
本次夺冠,充分验证了诺因智能在第一视角视频理解、跨领域泛化能力、小模型高效适配、复杂具身场景感知领域的硬核技术,充分印证了团队在具身智能核心感知技术领域的前沿研发实力。

夺冠证书
1
顶级赛事加持
含金量拉满
EgoCross Challenge 是 CVPR 2026 EgoVis Workshop 重磅推出的首届跨领域第一视角视频理解专项赛事。作为全球第一视角视觉、人机交互与机器人感知方向的核心权威赛事,本届比赛聚焦具身智能前沿,旨在全面考察并突破 EgoCentric(第一视角感知) 的核心能力。 如果说传统的 EgoCentric 聚焦于“单个主体的第一人称基础感知”,那么本届EgoCross 则代表着更高级别的跨主体、跨视角的交叉建模与推理能力。
赛事基准源自AAAI 2026 顶会公开论文,专为解决真实场景的模型域泛化难题打造,更能真实反应模型应对复杂场景时的泛化能力。
赛事依托798 个专业场景视频片段、957 组高精度问答样本,全方位考核模型的识别、定位、预测、计数四大核心能力,精准检验模型在陌生、复杂、动态真实场景中的感知与推理水平。
作为行业公认的高难度评测基准,EgoCross 对 AI 模型极具挑战性。过往评测数据显示,主流通用多模态大模型、第一视角专用模型在该基准中表现普遍不佳,CloseQA 平均准确率不足 55%,OpenQA 准确率更是低于 35%,足以印证赛事的技术门槛与行业含金量。

EgoCross_Testing
2
严苛赛道比拼
硬核实力突围
本次赛事分为 Source-Limited 受限赛道 与 Open-Source 开源赛道。双赛道各有侧重、各展所长:受限赛道严苛设限,彻底杜绝“大模型堆参数、大数据堆训练”的内卷套路,真正比拼算法创新与工程优化能力;开源赛道则全面开放,允许拥抱大模型与海量数据,全面释放前沿技术的巨大潜能。
Source-Limited 赛道:
强制固定基座模型为 Qwen3-VL-4B,仅提供少量支持样本,严格限制数据与模型扩容,完全考验团队的推理策略与算法设计能力。
Open-Source 赛道:
开放模型与数据权限,汇集全球顶尖团队与商用模型同台竞技,竞争维度更全面、行业参考性更强。
在全球超过130个顶尖参赛队伍、超1500次提交的激烈角逐中,诺因智能成为唯一包揽双赛道冠军的团队,以绝对优势刷新赛事基准纪录,打破了“大模型才具备强跨域感知能力”的固有认知。
3
轻量化创新方案
释放小模型极致潜能
本次夺冠,诺因智能并未采用传统的大规模预训练、海量数据微调方案,而是依托自研 KnowinAct 生成式决策框架,创新提出了“场景自适应推理”策略。其核心思路与KnowinAct “理解场景,再进行决策”的理念一脉相承:不盲目堆砌模型与数据,而是通过构建动态决策链路,让轻量化 Qwen3-VL-4B 精准适配各类第一视角复杂场景。
在面对第一视角视频中的多样化任务时,KnowinAct 并非简单依赖视觉识别,而是能够根据不同场景动态构建决策链路:
在手术场景中,理解器械、组织与操作步骤之间的时序关系,实现高精度操作意图推理;
在工业场景中,理解零部件属性、空间关系与标准作业流程,完成复杂任务判断;
在极限运动场景中,捕捉高速动态变化,推断动作演进趋势;
在动物视角场景中,适应非标准视角与复杂运动模式,理解特殊环境下的交互逻辑。
这种能力背后体现的是 KnowinAct 的核心思想:不是让模型记住更多数据,而是让模型学会如何思考和决策。
诺因在此次EgoCross Challenge挑战赛夺冠进一步证明,未来具身智能的发展不仅取决于模型规模,更取决于决策能力。KnowinAct 所代表的生成式决策路线,正在持续释放轻量化模型的潜力,为机器人理解世界、规划任务和执行动作提供更加高效的基础能力。