0
| 本文作者: 陈淑瑜 | 2026-06-02 17:48 |
来源:公众号“视觉AI研报”
原文链接:https://mp.weixin.qq.com/s/RKSb3h2-BlGk7N5mxGk6DQ?scene=1
? 快速入口
导语:目标检测还能这么玩?最近CVPR 2026接收了一篇论文,直接把Agent(智能体)塞进了目标检测里,效果直接炸裂——6个数据集平均提升28%!暗光场景更是暴力提升37%!这就是DetAS,"在任意场景检测"的意思。?
一句话总结:CVPR 2026接收的Agentic目标检测框架,用多模态大模型(MLLM)当大脑,动态指挥检测流程。
| 全称 | |
| 缩写 | |
| 定位 | |
| 发表 | |
| arXiv |
┌─────────────────────────────────────────────┐
│ 目标检测的"三大难题" │
├─────────────────────────────────────────────┤
│ │
│ ❌ 黑暗場景:晚上拍照看不见 │
│ 手机夜景差,检测直接挂 │
│ │
│ ❌ 领域差异:训练认车,测试认猫 │
│ 数据分布偏移,分分钟失效 │
│ │
│ ❌ 不会思考:只会闷头检测 │
│ 不知道"为什么要检测这里" │
│ │
└─────────────────────────────────────────────┘
让模型自己决定"要不要P图"!
┌─────────────────────────────────────────────┐
│ DetAS怎么处理图像 │
├─────────────────────────────────────────────┤
│ │
│ 输入图片 → MLLM判断 → 决定增强策略 │
│ │
│ "这张太暗" → "调亮+去噪" │
│ "这张还行" → "直接检测" │
│ "这张模糊" → "锐化+增强" │
│ │
│ 相当于:给照片加了"智能美颜" │
└─────────────────────────────────────────────┘
不是用一个检测器,而是"开会决策"!
┌─────────────────────────────────────────────┐
│ 多专家"投票"机制 │
├─────────────────────────────────────────────┤
│ │
│ ? 专家1:通用检测器 → 给我往死里检 │
│ ? 专家2:暗光专家 → 专门处理夜景 │
│ ? 专家3:车辆专家 → 专门检车 │
│ ? 专家4:动物专家 → 专门检动物 │
│ │
│ ? MLLM决策:根据场景选专家 │
│ │
│ 效果:专业的事交给专业的人来做! │
└─────────────────────────────────────────────┘
越 Detection, 越聪明!
| +37.01% | ||
┌─────────────────────────────────────────────┐
│ DetAS vs 基线检测器 │
├─────────────────────────────────────────────┤
│ │
│ DarkFace (暗光): │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ 基线: 45.2 F1 │
│ DetAS: 82.21 F1 ⭐ (+37.01%) │
│ │
│ 通用场景: │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ 基线: 55.8 F1 │
│ DetAS: 70.2 F1 ⭐ (+25.8%) │
│ │
│ 综合平均:+28.36% │
└─────────────────────────────────────────────┘
┌─────────────────────────────────────────────┐
│ DetAS = 目标检测的"ChatGPT" │
├─────────────────────────────────────────────┤
│ │
│ 以前: │
│ 输图片 → 跑模型 → 出结果 │
│ "傻傻执行,不动脑子" │
│ │
│ DetAS: │
│ 输图片 → 想一想 → 选策略 → 精准检测 │
│ "会思考的执行力" │
│ │
│ 关键变量: │
│ = MLLM理解场景 + 自适应处理 + 多专家融合 │
└─────────────────────────────────────────────┘
| 图1 | ||
| 图2 | ||
| 图3 | ||
| 图4 |
DetAS可能开启"智能检测时代":以后检测器不只是"执行命令",而是会"思考怎么做"——这可能就是目标检测的GPT时刻...
标题
作者
发表
arXiv