CVPR 2026最新论文！DetAS横空出世：目标检测的"GPT时刻"来了？

本文作者：陈淑瑜

2026-06-02 17:48

导语：炸裂！CVPR 2026接收一篇重磅论文，用Agent做目标检测，直接屠榜6大benchmarks！平均提升28%，暗光场景提升37%！这是要革目标检测的命..

来源：公众号“视觉AI研报”
原文链接：https://mp.weixin.qq.com/s/RKSb3h2-BlGk7N5mxGk6DQ?scene=1

? 快速入口

? arXiv论文：https://arxiv.org/abs/2605.31174
? GitHub代码：搜索"DetAS"获取

导语：目标检测还能这么玩？最近CVPR 2026接收了一篇论文，直接把Agent（智能体）塞进了目标检测里，效果直接炸裂——6个数据集平均提升28%！暗光场景更是暴力提升37%！这就是DetAS，"在任意场景检测"的意思。?

? DetAS是什么？

一句话总结：CVPR 2026接收的Agentic目标检测框架，用多模态大模型（MLLM）当大脑，动态指挥检测流程。

项目	内容
全称	Detect in Any Scene
缩写	DetAS
定位	Agentic目标检测框架
发表	CVPR 2026
arXiv	2605.31174

? DetAS凭啥这么牛？

传统目标检测的"三大痛点"

┌─────────────────────────────────────────────┐
│        目标检测的"三大难题"                    │
├─────────────────────────────────────────────┤
│                                             │
│  ❌ 黑暗場景：晚上拍照看不见                   │
│     手机夜景差，检测直接挂                  │
│                                           │
│  ❌ 领域差异：训练认车，测试认猫           │
│     数据分布偏移，分分钟失效              │
│                                           │
│  ❌ 不会思考：只会闷头检测              │
│     不知道"为什么要检测这里"            │
│                                             │
└─────────────────────────────────────────────┘

DetAS的两大核心创新

? 创新1：自适应图像恢复（Self-Adaptive Image Restoration）

让模型自己决定"要不要P图"！

┌─────────────────────────────────────────────┐
│        DetAS怎么处理图像                  │
├─────────────────────────────────────────────┤
│                                             │
│  输入图片 → MLLM判断 → 决定增强策略        │
│                                           │
│  "这张太暗" → "调亮+去噪"               │
│  "这张还行" → "直接检测"               │
│  "这张模糊" → "锐化+增强"               │
│                                           │
│  相当于：给照片加了"智能美颜"           │
└─────────────────────────────────────────────┘

? 创新2：多专家检测（Multi-Expertise Detection）

不是用一个检测器，而是"开会决策"！

┌─────────────────────────────────────────────┐
│        多专家"投票"机制                   │
├─────────────────────────────────────────────┤
│                                             │
│  ? 专家1：通用检测器 → 给我往死里检          │
│  ? 专家2：暗光专家 → 专门处理夜景       │
│  ? 专家3：车辆专家 → 专门检车           │
│  ? 专家4：动物专家 → 专门检动物         │
│                                           │
│  ? MLLM决策：根据场景选专家            │
│                                           │
│  效果：专业的事交给专业的人来做！        │
└─────────────────────────────────────────────┘

? 创新3：经验积累（Experience-Aware）- DetAS-X升级版

越 Detection, 越聪明！

从历史数据中学习决策经验
遇到类似场景自动调用"成功经验"
相当于：从"实习生"进化成"老油条"

? 实验效果：直接屠榜！

六大数据集屠榜

数据集	提升幅度	场景
DarkFace	+37.01% ⭐	暗光场景
COCO	+25%+	通用场景
LVIS	+20%+	长尾类别
...	...	...

平均提升：28.36%

┌─────────────────────────────────────────────┐
│        DetAS  vs  基线检测器                      │
├─────────────────────────────────────────────┤
│                                             │
│  DarkFace (暗光)：                           │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━    │
│  基线:    45.2 F1                         │
│  DetAS:  82.21 F1 ⭐ (+37.01%)           │
│                                           │
│  通用场景：                                │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━    │
│  基线:    55.8 F1                         │
│  DetAS:  70.2 F1 ⭐ (+25.8%)             │
│                                           │
│  综合平均：+28.36%                         │
└─────────────────────────────────────────────┘

? 为什么DetAS重要？

目标检测的"GPT时刻"

┌─────────────────────────────────────────────┐
│     DetAS = 目标检测的"ChatGPT"               │
├─────────────────────────────────────────────┤
│                                             │
│   以前：                                   │
│   输图片 → 跑模型 → 出结果                  │
│   "傻傻执行，不动脑子"                     │
│                                           │
│   DetAS：                                   │
│   输图片 → 想一想 → 选策略 → 精准检测     │
│   "会思考的执行力"                         │
│                                           │
│   关键变量：                               │
│   = MLLM理解场景 + 自适应处理 + 多专家融合   │
└─────────────────────────────────────────────┘

核心价值

价值	说明
? 泛化性	能检测"任意场景"
?️ 模块化	可插拔的专家检测器
? 可进化	经验可以积累
⚡ 高性能	28%+提升不是吹的

? 论文图表

图号	描述	建议放置位置
图1	DetAS框架总览	"核心创新"章节
图2	自适应图像恢复流程	"创新1"章节
图3	多专家检测架构	"创新2"章节
图4	实验对比柱状图	"实验效果"章节

高清大图获取

? arXiv原文：https://arxiv.org/abs/2605.31174

? 吃瓜总结

维度	评价
? 创新性	⭐⭐⭐⭐⭐ Agentic检测先驱
? 实用性	⭐⭐⭐⭐⭐ 6大数据集验证
? 工程价值	⭐⭐⭐⭐ 模块化可插拔
? 想象力	⭐⭐⭐⭐⭐ 万物皆可Agent

一句话总结

DetAS可能开启"智能检测时代"：以后检测器不只是"执行命令"，而是会"思考怎么做"——这可能就是目标检测的GPT时刻...

? 论文信息

标题
：Detect in Any Scene: An Agentic Framework for Object Detection with Experience-Aware Reasoning
作者
：Wenlun Zhang, Jun Yin, Kentaro Yoshioka
发表
：CVPR 2026
arXiv
：https://arxiv.org/abs/2605.31174

0人收藏

陈淑瑜

编辑

发私信

当月热门文章