您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026最新论文!DetAS横空出世:目标检测的"GPT时刻"来了?

本文作者: 陈淑瑜   2026-06-02 17:48
导语:炸裂!CVPR 2026接收一篇重磅论文,用Agent做目标检测,直接屠榜6大benchmarks!平均提升28%,暗光场景提升37%!这是要革目标检测的命..

来源:公众号“视觉AI研报”

原文链接:https://mp.weixin.qq.com/s/RKSb3h2-BlGk7N5mxGk6DQ?scene=1

? 快速入口

  • arXiv论文:https://arxiv.org/abs/2605.31174
  • GitHub代码:搜索"DetAS"获取

导语:目标检测还能这么玩?最近CVPR 2026接收了一篇论文,直接把Agent(智能体)塞进了目标检测里,效果直接炸裂——6个数据集平均提升28%!暗光场景更是暴力提升37%!这就是DetAS,"在任意场景检测"的意思。?



? DetAS是什么?

一句话总结:CVPR 2026接收的Agentic目标检测框架,用多模态大模型(MLLM)当大脑,动态指挥检测流程。

项目
内容
全称
Detect in Any Scene
缩写
DetAS
定位
Agentic目标检测框架
发表
CVPR 2026
arXiv
2605.31174


? DetAS凭啥这么牛?

传统目标检测的"三大痛点"


┌─────────────────────────────────────────────┐
│        目标检测的"三大难题"                    │
├─────────────────────────────────────────────┤
│                                             │
│  ❌ 黑暗場景:晚上拍照看不见                   │
│     手机夜景差,检测直接挂                  │
│                                           │
│  ❌ 领域差异:训练认车,测试认猫           │
│     数据分布偏移,分分钟失效              │
│                                           │
│  ❌ 不会思考:只会闷头检测              │
│     不知道"为什么要检测这里"            │
│                                             │
└─────────────────────────────────────────────┘


DetAS的两大核心创新


? 创新1:自适应图像恢复(Self-Adaptive Image Restoration)

让模型自己决定"要不要P图"!


┌─────────────────────────────────────────────┐
│        DetAS怎么处理图像                  │
├─────────────────────────────────────────────┤
│                                             │
│  输入图片 → MLLM判断 → 决定增强策略        │
│                                           │
│  "这张太暗" → "调亮+去噪"               │
│  "这张还行" → "直接检测"               │
│  "这张模糊" → "锐化+增强"               │
│                                           │
│  相当于:给照片加了"智能美颜"           │
└─────────────────────────────────────────────┘


? 创新2:多专家检测(Multi-Expertise Detection)

不是用一个检测器,而是"开会决策"!


┌─────────────────────────────────────────────┐
│        多专家"投票"机制                   │
├─────────────────────────────────────────────┤
│                                             │
│  ? 专家1:通用检测器 → 给我往死里检          │
│  ? 专家2:暗光专家 → 专门处理夜景       │
│  ? 专家3:车辆专家 → 专门检车           │
│  ? 专家4:动物专家 → 专门检动物         │
│                                           │
│  ? MLLM决策:根据场景选专家            │
│                                           │
│  效果:专业的事交给专业的人来做!        │
└─────────────────────────────────────────────┘


? 创新3:经验积累(Experience-Aware)- DetAS-X升级版

越 Detection, 越聪明!

  • 从历史数据中学习决策经验
  • 遇到类似场景自动调用"成功经验"
  • 相当于:从"实习生"进化成"老油条"


? 实验效果:直接屠榜!


六大数据集屠榜

数据集
提升幅度
场景
DarkFace
+37.01%
 ⭐
暗光场景
COCO
+25%+
通用场景
LVIS
+20%+
长尾类别
...
...
...


平均提升:28.36%


┌─────────────────────────────────────────────┐
│        DetAS  vs  基线检测器                      │
├─────────────────────────────────────────────┤
│                                             │
│  DarkFace (暗光):                           │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━    │
│  基线:    45.2 F1                         │
│  DetAS:  82.21 F1 ⭐ (+37.01%)           │
│                                           │
│  通用场景:                                │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━    │
│  基线:    55.8 F1                         │
│  DetAS:  70.2 F1 ⭐ (+25.8%)             │
│                                           │
│  综合平均:+28.36%                         │
└─────────────────────────────────────────────┘


? 为什么DetAS重要?


目标检测的"GPT时刻"


┌─────────────────────────────────────────────┐
│     DetAS = 目标检测的"ChatGPT"               │
├─────────────────────────────────────────────┤
│                                             │
│   以前:                                   │
│   输图片 → 跑模型 → 出结果                  │
│   "傻傻执行,不动脑子"                     │
│                                           │
│   DetAS:                                   │
│   输图片 → 想一想 → 选策略 → 精准检测     │
│   "会思考的执行力"                         │
│                                           │
│   关键变量:                               │
│   = MLLM理解场景 + 自适应处理 + 多专家融合   │
└─────────────────────────────────────────────┘


核心价值

价值
说明
泛化性
能检测"任意场景"
?️ 模块化
可插拔的专家检测器
可进化
经验可以积累
⚡ 高性能
28%+提升不是吹的


? 论文图表

图号
描述
建议放置位置
图1
DetAS框架总览
"核心创新"章节
图2
自适应图像恢复流程
"创新1"章节
图3
多专家检测架构
"创新2"章节
图4
实验对比柱状图
"实验效果"章节


高清大图获取

  • arXiv原文:https://arxiv.org/abs/2605.31174


? 吃瓜总结

维度
评价
创新性
⭐⭐⭐⭐⭐ Agentic检测先驱
实用性
⭐⭐⭐⭐⭐ 6大数据集验证
工程价值
⭐⭐⭐⭐ 模块化可插拔
想象力
⭐⭐⭐⭐⭐ 万物皆可Agent

一句话总结

DetAS可能开启"智能检测时代":以后检测器不只是"执行命令",而是会"思考怎么做"——这可能就是目标检测的GPT时刻...

? 论文信息

  • 标题

    :Detect in Any Scene: An Agentic Framework for Object Detection with Experience-Aware Reasoning
  • 作者

    :Wenlun Zhang, Jun Yin, Kentaro Yoshioka
  • 发表

    :CVPR 2026
  • arXiv

    :https://arxiv.org/abs/2605.31174

CVPR 2026最新论文!DetAS横空出世:目标检测的

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说