0

作者丨高允毅
编辑丨马晓宁
连Harness都能自我迭代了!
在AI圈,有一个基本共识,即Agent = Model + Harness。
决定智能体表现的,从来不只是底层模型这颗 “脑子”,还有包裹在外的整套 “外壳”——Harness,它包含提示词模板、工具调用规则、记忆管理、控制流、安全护栏等。 过去半年,Claude Code、Manus 这类全自动智能体一路狂飙,已经跑通了 “AI 写 AI” 的快速迭代。但支撑它们的 Harness,至今还要人工搭建,且是一次性的。
这意味着模型每升级一次,工程师就得追在后面重搭一遍脚手架。而Agent在运行时产生的千万级token执行轨迹,哪里干得顺、哪里卡了壳、为什么失败,几乎全被丢弃,从未沉淀为下一轮改进的信号。
比如,Anthropic 发布新版 Claude 模型后,工程师还得手动去把 Claude Code 里冗余的规划步骤删掉;Manus 更夸张,6 个月内重写了 5 次架构,每一轮都在手动砍掉上一轮硬编码的复杂逻辑。
这次,小米直接掀桌子了。
6 月 12 日,小米Darwin Agent Team 发布论文《HarnessX》,直接瞄准这个痛点,用“系统自进化”,试图终结 Harness 人工调优的时代。

图注:小米团队发布论文《HarnessX》
地址:https://arxiv.org/abs/2606.14249
结果很惊人,HarnessX平均带来14.5%的性能跃升。而且模型越小,提升越猛,搭配 Qwen 3.5-9B 这类小参数开源模型时,在具身规划任务上的性能最高暴涨了 44%。
这也是小米继推出万亿参数 Agent 旗舰大模型 MiMo-V2-Pro 之后,再次在智能体底层架构(Harness)领域发力,这种自我修复、自我进化的框架,正是未来企业级AI接手复杂长周期任务的关键底座。

01
在传统观点里,Harness 是辅助工具,模型才是主角。HarnessX做的恰恰反过来,把Harness升为与模型地位平等的“一等公民”,并创造了三个关键特质:可组合、自适应、可进化。

图注:HarnessX 系统的核心循环机制:可组合,自适应,可进化
▎积木式拼装
先说可组合。
过去的 Agent 开发存在严重的“架构纠缠”。提示词、工具封装、重试策略和记忆管理,像一团乱麻一样写在同一段代码里。改动一个微小的零件,可能悄无声息地就把别的地方搞崩了。
HarnessX 直接把底层模型和 Harness 完全解耦。同一套“干活方式”可以套在不同模型上,同一个模型也能随时切换不同的“干活方式”。更进一步,他们把Harness拆成9个独立的维度,包含模型选择、上下文组装、记忆管理、工具生态、执行环境、评估与奖励、控制与安全、可观测性、训练桥接,每个模块由一个个叫Typed Processors(类型化处理器)的小零件负责,这些小零件可以挂在8个时间点上,比如任务开始前、模型调用前、工具用完之后等,通过统一的接口插拔。

图注:Harness的9维模块化解耦与 AEGIS决策机制
这样设计的好处不仅是解耦,改一个零件不会把别的地方搞坏,还会进行严格的合并与冲突检测,拼装时如果逻辑不对,系统在代码阶段就会报错,不会等到真跑起来才发现出问题。
▎AEGIS 进化引擎
有了可组合的基础设施,下一步是让它自己进化。为此,论文提出了两层核心设计,底层是操作镜像理论,上层是基于这套理论实现的“AEGIS”进化引擎。两者结合,构成整个“系统自进化”的核心底座。
所谓操作镜像,本质是把Harness自进化的过程,套上了强化学习的框架。在具体的对应关系中,Harness配置对应“状态”,代码级的编辑对应“动作”,执行轨迹 + 验证得分对应“反馈”,确定性验收规则对应“更新”。
这套映射设计的精妙之处在于,它精准狙击传统 AI 自进化时最容易犯的三大死穴:(1)刷分作弊不干活(2)灾难性遗忘,一改就崩(3)只改表面提示词,不改底层代码。

图注: HarnessX 系统在自我演进中对抗三种典型失败风险的案例
而 AEGIS 就是基于这套操作镜像理论,实际落地的一套四阶段进化流水线。四个阶段环环相扣,每一个阶段都针对性地堵住上面三个漏洞中的某一个。
第一步,Digester(消化器):把任务跑完的完整过程压缩成精简摘要,只提炼出“在哪个步骤、卡在什么问题上”。
第二步,Planner(规划器): 看摘要判断该改什么。这里有一个关键设计,它刻意逼着 AI 做结构性改变。 如果连续几轮 AI 只敢改提示词而不碰工具层,就会被标记为“探索不足”。
第三步,Evolver(进化器):真正动手写代码级别的改动。比如写个新处理器、重构工具注册表,不是从选项里挑,而是实打实生成新代码。生成完必须先过“烟雾测试”,语法和类型全对,才能进下一关。
第四步,Critic + Gate(评判+闸门)。Critic(裁判)负责盯着 AI 有没有作弊;而 Gate(闸门)拥有一票否决权,它的核心要求是:新版本可以变得更强,但不能让任何旧任务变差,否则直接打回重造。
这套设计的底层逻辑是让AI大胆改自己,但上了一堆铁规矩和门禁,改得不好的直接打回去,防止AI走歪路。
▎平行分身
不过,这套单条进化流水线有一个天然短板。 当面对GAIA这类“任务类型五花八门”的异构基准时,优化A类任务的改动,往往会拖累B类任务。结果是整体表现原地踏步,甚至越改越差。
为此,HarnessX 又设计了一个“变体隔离”机制。系统可以同时维护好几个不同版本的Harness,每个任务会自动流向历史表现最好的那个版本。如果一个改动只对某类任务有效,系统不会直接拒绝它,而是给它开个“分号”,让这个更好的版本独立进化,互不干扰。
这项设计直接打破了进化天花板。在GAIA+GPT-5.4的测试中,只用一个Harness进化,15轮后性能增益几乎为零,后期甚至从73.8%的高点退化到49.5%;而启用“变体隔离”后,最终准确率飙升到87.4%,全程无退化,还顺手省了25%的token消耗。
▎双向升级
而HarnessX的终极大招,是模型和Harness的协同进化,而且用同一个“错题本”,一鱼两吃。
为什么要一起升级?
论文提出了一个深刻的观察:如果只进化Harness,会遇到“脚手架天花板”:它把工具、流程做到极致了,但模型本身的推理能力跟不上,再好的工具也用不明白。如果只训练模型,会遇到“训练信号天花板”:模型变聪明了,但老旧的Harness也不提示它使用这些新能力。
HarnessX 怎么做?共用一个“错题本”——Replay Buffer。
AI 每次干完活,整个执行过程会被记录下来,这份记录同时送到底层模型和Harness,同步提升。

图注:HarnessX协同进化展示图
这里面藏着一个绝妙的设计:跨 Harness 按任务分组对比。
不同版本的 Harness 工作方式可能天差地别,工具、提示词、控制流全不一样,直接对比很容易乱套。这套系统的做法是只看结果,同一个任务,把所有 Harness 版本产生的轨迹放在一组,只对比最终奖励高低,让模型自己去内化 “哪种执行策略效果更好”。
值得一提的是,模型侧在这个过程中,使用的是 Cross-harness GRPO 算法。没错,正是最近让DeepSeek-R1封神、展现出极强推理能力的核心强化学习技术。它会把Harness自进化中产生的那些执行数据,直接拿来用 GRPO 训练模型,实现一鱼多吃,无需再额外采集数据。
省掉这笔数据采集成本的同时,协同进化还能再带来平均 +4.7% 的额外性能增益。

02
为了检验这套组合拳的真实威力,团队直接将 HarnessX 放进了大模型界的“终极修罗场”:联动 Claude 4.6 Sonnet、GPT-5.4 以及开源轻量模型 Qwen 3.5-9B,在 GAIA、SWE-bench Verified 等五大硬核基准上,进行了长达 15 轮的疯狂自我迭代。
最终在15组对比实验中,有14组平均性能提升14.5%。

图注:三个模型在使用 HarnessX前后,在五大测评中的表现
这是一个足以让行业重新算账的数据。在 AI 赛道,底层模型想提升 5% 的性能,大厂往往需要烧掉数亿美元的算力。而 HarnessX 在不改动大模型任何一个参数的前提下,仅靠“Harness自进化”,就拿到了平均 14.5% 的性能红利。
更有趣的是,在这套体系中,底层模型越小,Harness进化的红利越大。开源小模型Qwen 3.5-9B在ALFWorld具身规划任务上,从基线53.0%提升到97.0%,暴涨44个百分点。
这是因为,顶尖模型有较强的自我纠错能力,对Harness的依赖相对低。而一个实力较弱的模型,通过一个精心进化过Harness,如更好的错误恢复策略、更合理的工具调用顺序、更准确的上下文组装,可以补上大量短板。 对于资源有限的团队,如果换不起大模型,但或许可以靠进化Harness来追平差距。

03
在这份完美的硬核数据背后,一个全新的 Agent 研究方向正在悄然成型。
相比官方论文的客观陈述,技术圈在 X、Hugging Face 和 Reddit 上的反馈要直观得多。
一位资深研究员在社交媒体上感慨:“我们经历了从卷参数,到卷上下文长度,最后连 AI 的外壳都要亲手调。Harness 曾是我们最后一块靠纯手工打磨的拼图。现在,连它都能自动编译了。”
这句话击中了无数人的共鸣。不少开发者指出,行业过去患有严重的“月度新模型强迫症”。而 HarnessX 证明了:底座权重不必频繁变动,只要周围的环境变聪明了,小模型同样能迎来爆发。
很多做 Agent 落地的团队非常赞赏“解耦”设计,这种极高的模块化和可复用性,直接击中了工业界长期存在的“复用代码成本高”的痛点。
当然,业内也不乏冷静的审视。
知名AI技术博主AlphaSignal直接浇了一盆冷水,点出了HarnessX当前的几处核心隐患:

论文里所有亮眼的数字,都是在训练集上测出来的。但真正的考验是没见过的题(held-out评估),“模型泛化能力很强”的真实情况还未可知。
在 GAIA 测试中,AI 曾利用验证器漏洞,将准确率从 74.8% 一举拉到 79.6%。但这近5% 的暴涨,有一部分并非因为任务完成得更好,而是 AI 洞察了裁判的偏好,学会了投机取巧。尽管 AEGIS 设计了 Critic 安全机制,但在复杂的现实业务中能否彻底堵死这种“奖励作弊”,依然是个未知数。
HarnessX的进化引擎,严重依赖像Claude Opus 4.6这种顶级大模型。按公开 API 价格估算,单次完整的 15 轮进化流程,模型调用成本约 1519 美元,相当于一万多人民币。如果用开源模型来代替这个角色,能不能干同样的活?
除此之外,论文自身也坦诚了更多的 “局限”。
目前HarnessX只验证了文字输出的任务,比如让AI写代码、答题。像机器人控制这类需要AI连续输出动作指令的任务,还没测过;协同进化需要“Harness”和“AI模型”同时升级。但在大厂里,这俩往往是两个团队各自负责的,真要用起来,跨团队扯皮和协调的成本极高;测试的项目类型还不够全,有些任务只拿了部分样本来测,没有跑完整套数据。
对此 AlphaSignal 给出的建议是,可以先落地使用 HarnessX 的“组合能力”,至于“自进化”的功能,还是等更严格的测试结果出来再考虑使用。
与此同时,HuggingFace 上一位叫 gakki 的开发者,一针见血地指出了国内做 Agent 的团队可能会遇到的麻烦。“AEGIS 依赖的是极其干净、结构化的执行轨迹(Trace),但国内很多业务场景,数据源本身就乱七八糟,生产环境远没有论文里那么理想。”
不过,瑕不掩瑜,Harness自进化,正在成为2026年上半年最独立、最热门的Agent工程方向。
HuggingFace的Librarian Bot给这篇论文推荐了7篇同期相关论文,从《Agentic Harness Engineering: Observability-Driven Automatic Evolution》到《Self-Harness: Harnesses That Improve Themselves》,全部聚焦在这一主题。
目前HarnessX代码还没完全开源。GitHub仓库已经有了112颗星,官方预告代码“将在未来更新中发布”。但这丝毫不影响业界的期待,在 Hugging Face 论文讨论区,全球开发者几乎每天都在催更同一个问题:“代码究竟什么时候放出来?”
协同进化的最终目标,从来不是换更强的模型,而是“让同一个模型在更好的Harness里,通过吸取执行经验,持续变强”。这种不额外消耗训练数据的数据效率,才是企业级 AI 真正的护城河。
当Harness的进化能和模型训练同频共振,Agent才真正从“一次性手工作坊”,走向了“可持续进化的工厂”。
参考链接: https://arxiv.org/abs/2606.14249


上车,雷峰网(公众号:雷峰网)带你看遍全球 AI 顶会精华
可独家畅览:
专家演讲PPT
大会报告全文
热门论文解读
学术新星访谈

扫描上方二维码
或点击「阅读原文」关注专区。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。