Claude 和 Manus 还要人工搭框架？小米直接让 Agent 自我进化

本文作者：高允毅

2026-07-02 15:10

导语：连 AI 的 “外壳” 都学会自我迭代了

连 AI 的 “外壳” 都学会自我迭代了

作者丨高允毅

编辑丨马晓宁

连Harness都能自我迭代了！

在AI圈，有一个基本共识，即Agent = Model + Harness。

决定智能体表现的，从来不只是底层模型这颗 “脑子”，还有包裹在外的整套 “外壳”——Harness，它包含提示词模板、工具调用规则、记忆管理、控制流、安全护栏等。过去半年，Claude Code、Manus 这类全自动智能体一路狂飙，已经跑通了 “AI 写 AI” 的快速迭代。但支撑它们的 Harness，至今还要人工搭建，且是一次性的。

这意味着模型每升级一次，工程师就得追在后面重搭一遍脚手架。而Agent在运行时产生的千万级token执行轨迹，哪里干得顺、哪里卡了壳、为什么失败，几乎全被丢弃，从未沉淀为下一轮改进的信号。

比如，Anthropic 发布新版 Claude 模型后，工程师还得手动去把 Claude Code 里冗余的规划步骤删掉；Manus 更夸张，6 个月内重写了 5 次架构，每一轮都在手动砍掉上一轮硬编码的复杂逻辑。

这次，小米直接掀桌子了。

6 月 12 日，小米Darwin Agent Team 发布论文《HarnessX》，直接瞄准这个痛点，用“系统自进化”，试图终结 Harness 人工调优的时代。

图注：小米团队发布论文《HarnessX》

地址：https://arxiv.org/abs/2606.14249

结果很惊人，HarnessX平均带来14.5%的性能跃升。而且模型越小，提升越猛，搭配 Qwen 3.5-9B 这类小参数开源模型时，在具身规划任务上的性能最高暴涨了 44%。

这也是小米继推出万亿参数 Agent 旗舰大模型 MiMo-V2-Pro 之后，再次在智能体底层架构（Harness）领域发力，这种自我修复、自我进化的框架，正是未来企业级AI接手复杂长周期任务的关键底座。

Harness升为“一等公民”：

可组合，自适应，可进化

在传统观点里，Harness 是辅助工具，模型才是主角。HarnessX做的恰恰反过来，把Harness升为与模型地位平等的“一等公民”，并创造了三个关键特质：可组合、自适应、可进化。

图注：HarnessX 系统的核心循环机制：可组合，自适应，可进化

▎积木式拼装

先说可组合。

过去的 Agent 开发存在严重的“架构纠缠”。提示词、工具封装、重试策略和记忆管理，像一团乱麻一样写在同一段代码里。改动一个微小的零件，可能悄无声息地就把别的地方搞崩了。

HarnessX 直接把底层模型和 Harness 完全解耦。同一套“干活方式”可以套在不同模型上，同一个模型也能随时切换不同的“干活方式”。更进一步，他们把Harness拆成9个独立的维度，包含模型选择、上下文组装、记忆管理、工具生态、执行环境、评估与奖励、控制与安全、可观测性、训练桥接，每个模块由一个个叫Typed Processors（类型化处理器）的小零件负责，这些小零件可以挂在8个时间点上，比如任务开始前、模型调用前、工具用完之后等，通过统一的接口插拔。

图注：Harness的9维模块化解耦与 AEGIS决策机制

这样设计的好处不仅是解耦，改一个零件不会把别的地方搞坏，还会进行严格的合并与冲突检测，拼装时如果逻辑不对，系统在代码阶段就会报错，不会等到真跑起来才发现出问题。

▎AEGIS 进化引擎

有了可组合的基础设施，下一步是让它自己进化。为此，论文提出了两层核心设计，底层是操作镜像理论，上层是基于这套理论实现的“AEGIS”进化引擎。两者结合，构成整个“系统自进化”的核心底座。

所谓操作镜像，本质是把Harness自进化的过程，套上了强化学习的框架。在具体的对应关系中，Harness配置对应“状态”，代码级的编辑对应“动作”，执行轨迹 + 验证得分对应“反馈”，确定性验收规则对应“更新”。

这套映射设计的精妙之处在于，它精准狙击传统 AI 自进化时最容易犯的三大死穴：（1）刷分作弊不干活（2）灾难性遗忘，一改就崩（3）只改表面提示词，不改底层代码。

图注： HarnessX 系统在自我演进中对抗三种典型失败风险的案例

而 AEGIS 就是基于这套操作镜像理论，实际落地的一套四阶段进化流水线。四个阶段环环相扣，每一个阶段都针对性地堵住上面三个漏洞中的某一个。

第一步，Digester（消化器）：把任务跑完的完整过程压缩成精简摘要，只提炼出“在哪个步骤、卡在什么问题上”。

第二步，Planner（规划器）：看摘要判断该改什么。这里有一个关键设计，它刻意逼着 AI 做结构性改变。如果连续几轮 AI 只敢改提示词而不碰工具层，就会被标记为“探索不足”。

第三步，Evolver（进化器）：真正动手写代码级别的改动。比如写个新处理器、重构工具注册表，不是从选项里挑，而是实打实生成新代码。生成完必须先过“烟雾测试”，语法和类型全对，才能进下一关。

第四步，Critic + Gate（评判+闸门）。Critic（裁判）负责盯着 AI 有没有作弊；而 Gate（闸门）拥有一票否决权，它的核心要求是：新版本可以变得更强，但不能让任何旧任务变差，否则直接打回重造。

这套设计的底层逻辑是让AI大胆改自己，但上了一堆铁规矩和门禁，改得不好的直接打回去，防止AI走歪路。

▎平行分身

不过，这套单条进化流水线有一个天然短板。当面对GAIA这类“任务类型五花八门”的异构基准时，优化A类任务的改动，往往会拖累B类任务。结果是整体表现原地踏步，甚至越改越差。

为此，HarnessX 又设计了一个“变体隔离”机制。系统可以同时维护好几个不同版本的Harness，每个任务会自动流向历史表现最好的那个版本。如果一个改动只对某类任务有效，系统不会直接拒绝它，而是给它开个“分号”，让这个更好的版本独立进化，互不干扰。

这项设计直接打破了进化天花板。在GAIA+GPT-5.4的测试中，只用一个Harness进化，15轮后性能增益几乎为零，后期甚至从73.8%的高点退化到49.5%；而启用“变体隔离”后，最终准确率飙升到87.4%，全程无退化，还顺手省了25%的token消耗。

▎双向升级

而HarnessX的终极大招，是模型和Harness的协同进化，而且用同一个“错题本”，一鱼两吃。

为什么要一起升级？

论文提出了一个深刻的观察：如果只进化Harness，会遇到“脚手架天花板”：它把工具、流程做到极致了，但模型本身的推理能力跟不上，再好的工具也用不明白。如果只训练模型，会遇到“训练信号天花板”：模型变聪明了，但老旧的Harness也不提示它使用这些新能力。

HarnessX 怎么做？共用一个“错题本”——Replay Buffer。

AI 每次干完活，整个执行过程会被记录下来，这份记录同时送到底层模型和Harness，同步提升。

图注：HarnessX协同进化展示图

这里面藏着一个绝妙的设计：跨 Harness 按任务分组对比。

不同版本的 Harness 工作方式可能天差地别，工具、提示词、控制流全不一样，直接对比很容易乱套。这套系统的做法是只看结果，同一个任务，把所有 Harness 版本产生的轨迹放在一组，只对比最终奖励高低，让模型自己去内化 “哪种执行策略效果更好”。

值得一提的是，模型侧在这个过程中，使用的是 Cross-harness GRPO 算法。没错，正是最近让DeepSeek-R1封神、展现出极强推理能力的核心强化学习技术。它会把Harness自进化中产生的那些执行数据，直接拿来用 GRPO 训练模型，实现一鱼多吃，无需再额外采集数据。

省掉这笔数据采集成本的同时，协同进化还能再带来平均 +4.7% 的额外性能增益。

小模型的超强助力：

性能最高暴涨44.0%

为了检验这套组合拳的真实威力，团队直接将 HarnessX 放进了大模型界的“终极修罗场”：联动 Claude 4.6 Sonnet、GPT-5.4 以及开源轻量模型 Qwen 3.5-9B，在 GAIA、SWE-bench Verified 等五大硬核基准上，进行了长达 15 轮的疯狂自我迭代。

最终在15组对比实验中，有14组平均性能提升14.5%。

图注：三个模型在使用 HarnessX前后，在五大测评中的表现

这是一个足以让行业重新算账的数据。在 AI 赛道，底层模型想提升 5% 的性能，大厂往往需要烧掉数亿美元的算力。而 HarnessX 在不改动大模型任何一个参数的前提下，仅靠“Harness自进化”，就拿到了平均 14.5% 的性能红利。

更有趣的是，在这套体系中，底层模型越小，Harness进化的红利越大。开源小模型Qwen 3.5-9B在ALFWorld具身规划任务上，从基线53.0%提升到97.0%，暴涨44个百分点。

这是因为，顶尖模型有较强的自我纠错能力，对Harness的依赖相对低。而一个实力较弱的模型，通过一个精心进化过Harness，如更好的错误恢复策略、更合理的工具调用顺序、更准确的上下文组装，可以补上大量短板。对于资源有限的团队，如果换不起大模型，但或许可以靠进化Harness来追平差距。

一个新的研究方向正在成型

在这份完美的硬核数据背后，一个全新的 Agent 研究方向正在悄然成型。

相比官方论文的客观陈述，技术圈在 X、Hugging Face 和 Reddit 上的反馈要直观得多。

一位资深研究员在社交媒体上感慨：“我们经历了从卷参数，到卷上下文长度，最后连 AI 的外壳都要亲手调。Harness 曾是我们最后一块靠纯手工打磨的拼图。现在，连它都能自动编译了。”

这句话击中了无数人的共鸣。不少开发者指出，行业过去患有严重的“月度新模型强迫症”。而 HarnessX 证明了：底座权重不必频繁变动，只要周围的环境变聪明了，小模型同样能迎来爆发。

很多做 Agent 落地的团队非常赞赏“解耦”设计，这种极高的模块化和可复用性，直接击中了工业界长期存在的“复用代码成本高”的痛点。

当然，业内也不乏冷静的审视。

知名AI技术博主AlphaSignal直接浇了一盆冷水，点出了HarnessX当前的几处核心隐患：

论文里所有亮眼的数字，都是在训练集上测出来的。但真正的考验是没见过的题（held-out评估），“模型泛化能力很强”的真实情况还未可知。

在 GAIA 测试中，AI 曾利用验证器漏洞，将准确率从 74.8% 一举拉到 79.6%。但这近5% 的暴涨，有一部分并非因为任务完成得更好，而是 AI 洞察了裁判的偏好，学会了投机取巧。尽管 AEGIS 设计了 Critic 安全机制，但在复杂的现实业务中能否彻底堵死这种“奖励作弊”，依然是个未知数。

HarnessX的进化引擎，严重依赖像Claude Opus 4.6这种顶级大模型。按公开 API 价格估算，单次完整的 15 轮进化流程，模型调用成本约 1519 美元，相当于一万多人民币。如果用开源模型来代替这个角色，能不能干同样的活？

除此之外，论文自身也坦诚了更多的 “局限”。

目前HarnessX只验证了文字输出的任务，比如让AI写代码、答题。像机器人控制这类需要AI连续输出动作指令的任务，还没测过；协同进化需要“Harness”和“AI模型”同时升级。但在大厂里，这俩往往是两个团队各自负责的，真要用起来，跨团队扯皮和协调的成本极高；测试的项目类型还不够全，有些任务只拿了部分样本来测，没有跑完整套数据。

对此 AlphaSignal 给出的建议是，可以先落地使用 HarnessX 的“组合能力”，至于“自进化”的功能，还是等更严格的测试结果出来再考虑使用。

与此同时，HuggingFace 上一位叫 gakki 的开发者，一针见血地指出了国内做 Agent 的团队可能会遇到的麻烦。“AEGIS 依赖的是极其干净、结构化的执行轨迹（Trace），但国内很多业务场景，数据源本身就乱七八糟，生产环境远没有论文里那么理想。”

不过，瑕不掩瑜，Harness自进化，正在成为2026年上半年最独立、最热门的Agent工程方向。

HuggingFace的Librarian Bot给这篇论文推荐了7篇同期相关论文，从《Agentic Harness Engineering: Observability-Driven Automatic Evolution》到《Self-Harness: Harnesses That Improve Themselves》，全部聚焦在这一主题。

目前HarnessX代码还没完全开源。GitHub仓库已经有了112颗星，官方预告代码“将在未来更新中发布”。但这丝毫不影响业界的期待，在 Hugging Face 论文讨论区，全球开发者几乎每天都在催更同一个问题：“代码究竟什么时候放出来？”

协同进化的最终目标，从来不是换更强的模型，而是“让同一个模型在更好的Harness里，通过吸取执行经验，持续变强”。这种不额外消耗训练数据的数据效率，才是企业级 AI 真正的护城河。

当Harness的进化能和模型训练同频共振，Agent才真正从“一次性手工作坊”，走向了“可持续进化的工厂”。

参考链接： https://arxiv.org/abs/2606.14249