您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界 正文
发私信给梁丙鉴
发送

0

Multi-Agent 实测:不会带团队,模型干到死

本文作者: 梁丙鉴   2026-07-01 11:35
导语: 组织能力,模型层之争的新战场。
雷峰网(公众号:雷峰网)讯 Multi-Agent,就是来让用户当皇上的。

想必很多人早已习惯睡前把成堆的事情丢给 Agent,让它跑上一整夜,直到早上自己醒来,看到一份漂亮的交付结果。当然也有很多时候,我们得到的只是一个卡死在凌晨三点的进程,或者不知道从哪步开始,就被幻觉污染得胡言乱语的上下文。

这一点对于复杂任务尤其明显。而在此类场景中,Multi-Agent 系统因其任务拆解能力和对上下文窗口压力的缓解,拥有了超越单独 Agent 的落地能力。

话虽如此,一个任务具体如何拆分、各 Agent 的角色如何分配、谁来纠正幻觉以及长流程管理仍然是横亘在 Multi-Agent 系统面前的考验。从 CrewAI、AutoGen 到打出三省六部制旗号的 Edict,都在试图解决这些问题。

而我们好奇的是,Multi-Agent 生态经历了从 2025 年末至今的飞速成长,今天已经发展到了何种程度?在真实的复杂任务场景中,它会作何表现?

Multi-Agent 实测:不会带团队,模型干到死

01

Agent Swarm “独苗”,Kimi K2.6

我们选择了 Kimi K2.6 作为此次的测试模型。即使今天距离这款模型的初次问世已经有了一段时间,它却仍然有着一众模型中极为少见的定位,一款针对 Multi-Agent 场景做了针对性优化的模型。

官方将其描述为具备 SOTA Coding、Long-Horizon Execution 和 Agent Swarm capabilities 的开源模型。值得注意的是最后一点,300 sub-agents、4000-step coordination 以及 multi-agent swarm orchestration 直接被 Kimi 写进了官方论文,至今还是止此一份。

更能说明问题的是此前 Kimi 官方披露的两个长程工程案例。K2.6 曾连续运行十几个小时,通过数千次工具调用优化本地模型推理和金融撮合引擎性能。这些案例共同指向一个判断,那就是模型不再仅仅负责生成答案,而是开始承担规划、执行、调用工具、接受反馈、修正路线并最终交付结果的完整链路,这正是 Multi-Agent 系统见长之处。

从结构上看,K2.6 采用 1T 级 MoE 架构,每次推理激活约 32B 参数,并支持 256K 上下文窗口。MoE 架构为模型提供了内部“专业化分工”的基础:面对代码、推理、工具调用、视觉理解和复杂任务拆解等不同场景时,模型可以通过专家路由机制调动不同能力。而 256K 长上下文,则为长程 Agent 任务提供了关键的“工作记忆”,使模型能够在长链路执行中保留任务目标、代码上下文、工具输出和多轮迭代历史。

相比单独 Agent 循环式执行任务,上述底层模型能力外化出的 Agent Swarm 必然会在任务拆解、并行处理和结果合成上有更突出的表现。这种组织能力很难被 Benchmark 体现,但它切实存在。K2.6 讨论的不仅是如何让一款模型更聪明,还在于让多个子 Agent 围绕同一个复杂目标协作。

Multi-Agent 实测:不会带团队,模型干到死

事实上,在我们的实测中 K2.6 也确实展现出了类似团队协作的工作方式。它没有直接写代码,而是先拆解任务、设计 Agent 角色、进行开发,再通过审查、反思和二次迭代,最终在 53 分钟内生成了一个可运行的浏览器版 macOS 原型。

这正是我们最关注的问题,即组织能力与智能水平的叠加,如何在复杂任务中为模型性能带来更大的增益。

Multi-Agent 实测:不会带团队,模型干到死

02

    Multi-Agent 实战测试,把 MacOS 装进浏览器

我们为 K2.6 准备了一项非常典型的 Agent Swarm 任务。


代码块

请创建一个精美的、浏览器版MacOS系统。

请使用多个agent一起完成这项任务,整体遵循“计划-开发-反思反驳-意见汇-开发”的流程。

这项任务的复杂度极高,原因在于 MacOS 的视觉、交互、状态管理、动效、应用生态、Windows Manager、Menu Bar、Dock 等子系统全部要在浏览器中实现,仅靠单 Agent 顺序写代码,几乎注定会在半途上下文爆炸。

这决定了它天然需要多 Agent 并行协作。一个 Agent 写基础架构,另一个 Agent 写内核,第三个 Agent 写基础应用,它们之间必须有清晰的接口契约和风格约定,否则最后拼出来的产物会四分五裂。

此外,能否遵循“反思-反驳-汇总-再开发”的循环,也是这项任务隐含的一项考验。这几乎等同于 K2.6 所强调的 Multi-Agent Orchestration,即避免多个 Agent 自说自话,而是让它们彼此质询、综合意见、再迭代交付。

下面来看看 K2.6 的真实表现。

▪ 先搭组织,再写代码

K2.6 没有直接进入代码生成,而是先进入计划模式,对任务进行了结构化拆解。它首先给出了一份完整的开发计划,将浏览器版 macOS 拆成几个核心模块:Desktop 环境、Dock 栏、Menu Bar、Window Manager、内置应用、视觉效果。

对于多 Agent 任务而言,最怕的是各个 Agent 各写各的,最后接口、风格、状态管理全部错位。K2.6 在正式开发前,先定义了技术栈、组件目录、状态结构和验证标准,就相当于先搭了一个组织架构。不要说多 Agent 实践了,有过团队协作经验的都知道这一步有多重要

▪ 多 Agent 分工:从开发到审查形成闭环

随后 K2.6 将任务交给六个 Agent 执行,并模拟出清晰的多 Agent 协作流程:

1)基础架构搭建:由 Agent A 负责初始化 Vite、React、TypeScript 项目,配置 Tailwind CSS,并搭建核心状态管理。

2)核心 UI 开发:由 Agent B 负责 Desktop、MenuBar、Dock 和 Window 系统。

3)应用开发:由 Agent C 负责 Finder、Safari、Terminal、Settings 等内置应用。

4)反思与反驳:由多个 Review Agents 分别从代码架构、UI/UX、性能优化角度进行审查。

5)意见汇聚与改进:将审查意见统一排序,确定修复优先级。

6)最终开发迭代:根据审查意见继续修改代码,完成测试和优化。

这套流程基本覆盖了真实软件工程中的几个关键环节,即从设计、开发、审查到修复、验证的全流程。相比单独 Agent 一路写到底,这种更接近团队协作的流程也更能体现 K2.6 所谓 Agent Swarm 的价值。任务拆解不是简单地把负责需求拆碎就完事,衡量拆解质量的标准,是模型能否交付一套可协作、可审查、可合并的工作单元拆解方案。

Multi-Agent 实测:不会带团队,模型干到死
Multi-Agent 实测:不会带团队,模型干到死
Multi-Agent 实测:不会带团队,模型干到死

▪ 开发阶段:遇到失败后继续推进

在实际开发过程中,K2.6 并非一路顺利,但其总能在遇到失败后找到解决问题的办法,并继续推进任务直到完成项目。一个比较典型的例子是,项目初期曾多次出现依赖安装失败,报错包括 npm 网络连接中断、安装命令失败等。但 K2.6 没有停在错误处,而是调整策略,主动改用新的缓存目录重新安装依赖,最终不仅完成了安装,而且还加装了各种功能额外依赖。

这种报错和失败也是真实工程任务的一个环节,甚至可以说是常态,依赖安装失败、配置不兼容、文件写入错误、类型报错、构建失败都会发生。而 K2.6 的表现显示,它能在失败后继续读取反馈、调整路径,并推动任务继续走下去。

Multi-Agent 实测:不会带团队,模型干到死

▪ 反思与审查:三个 Review Agent 并行指出问题

完成首轮开发后,K2.6 进入了“反思与反驳”阶段。系统启动了三个审查 Agent,分别给出了三方面的报告概述。

1)代码架构审查:7 次工具调用,约 30.0k tokens

2)UI/UX 体验审查:32 次工具调用,约 31.2k tokens

3)性能优化审查:23 次工具调用,约 30.3k tokens

此外令人惊喜的是,三个审查 Agent 对识别出的多类问题,自主划分出了高优先级和中优先级。这是一种很清醒的工程视角,或者说 K2.6 没有把审查当成某种形式化的环节,而是意识到它上承开发,下接迭代。将不同审查 Agent 的反馈汇总成优先级列表,意味着二次开发在任务之初就被考虑进了开发进度。

Multi-Agent 实测:不会带团队,模型干到死

▪ 53 分钟自主完成一个浏览器版 macOS 原型

在意见汇总后,K2.6 开始执行二次开发。在此次测试任务中,具体内容包括修复了 Tailwind CSS v4 配置问题、修改了 Window 组件、引入 Framer Motion、为窗口添加动画、修复拖拽事件相关逻辑,以及将部分 emoji 图标替换为 Lucide React 的 SVG 图标,使整体视觉风格更加统一。

最终 K2.6 完成了项目构建,并生成了一个可运行的浏览器版 macOS 原型。

Multi-Agent 实测:不会带团队,模型干到死
Multi-Agent 实测:不会带团队,模型干到死
Multi-Agent 实测:不会带团队,模型干到死

打开 http://localhost:5175 ,页面中已经出现了 macOS 风格的桌面、顶部菜单栏、左侧桌面图标和底部 Dock。这并不是一个静态 Demo,而是一个具备完整桌面交互结构的浏览器版 macOS 原型。

Multi-Agent 实测:不会带团队,模型干到死

分别像使用 MacBook 一样打开 Finder、Terminal、Safari、VS Code、Settings、Calculator、Notes 等应用,并以不同窗口层级叠放在桌面上。每个窗口都有独立标题栏和控制按钮,整体排列符合桌面操作系统的基本逻辑。窗口左上角的红黄绿控制按钮、顶部菜单栏和底部 Dock,整体操作方式已经高度接近 macOS 的桌面体验。

Multi-Agent 实测:不会带团队,模型干到死

到此,可以看出需求中的几个关键工程目标均已得到实现,例如窗口管理系统可用、应用状态能够区分、Dock 与应用入口联动、系统级布局完整、视觉风格统一。对于一个由 Agent 在不到一小时内完成的前端工程来说,这已经超出了普通代码补全任务的范畴,更接近一个完整小型应用系统的生成。

当然,更关键之处在于 K2.6 在这一过程中展现出的 Agent Swarm 能力,并非停留在多个角色分别发言的角色扮演上,相反所有反馈都被落实到了代码修改中。这既是 Multi-Agent 系统胜任复杂工程任务的原因,也是对于底层模型的考验。

Multi-Agent 实测:不会带团队,模型干到死

03

组织者,模型的新角色

Agent 概念兴起之初,一种非常简单的期待是,给大模型加上记忆、工具调用和自主规划能力,它就能自动完成任何任务。

但实践很快暴露出这一路径的天花板。对于查询资料、智能客服、代码补全等简单任务,一个 Agent 确实已经足够。可一旦任务复杂度上升,单独 Agent 方案对于一次性完成全部流程的倾向,往往注定导致遗漏步骤、逻辑跳跃以及最终的结果质量波动。

由此,如何让多个 Agent 像一个组织一样协同工作,从而完成单个模型难以稳定完成的复杂任务,成为了催生 Multi-Agent 框架的首要问题。这也是模型层的一块风向标,底层模型在复杂任务中的组织能力,重要性或许不亚于所谓的智能上限。

K2.6 在实测中的表现正体现了这一点,创建浏览器版 macOS,并不是让模型生成一段前端代码,而是要求它设计一个小型桌面系统:窗口管理、应用状态、Dock、Menu Bar、Finder、Safari、Terminal、VS Code、设置、计算器和备忘录都要同时成立。先搭架构,再分工开发,通过审查 Agent 发现问题,最后把反馈回流到二次开发中,这些环节也都要齐备。

有了这些,创建浏览器版 macOS 的任务就不能简单地和代码补全相提并论,而更像是一次压缩版的软件团队协作。

Kimi 官方博客给出的两个长程工程案例,更能说明这种变化。第一个案例中,K2.6 在本地 Mac 上自主下载并部署 Qwen3.5-0.8B 模型,并用 Zig 语言实现和优化推理。整个过程持续 12 小时以上,累计 4000 多次工具调用,经历 14 轮迭代,最终将吞吐从约 15 tokens/s 提升至约 193 tokens/s,并比 LM Studio 快约 20%。

Multi-Agent 实测:不会带团队,模型干到死

第二个案例发生在更复杂的系统工程场景中。K2.6 对已有 8 年历史的开源金融撮合引擎 exchange-core 进行自主改造。官方披露,模型连续执行 13 小时,迭代 12 种优化策略,发起 1000 多次工具调用,修改 4000 多行代码,并通过分析 CPU 与内存分配火焰图定位隐藏瓶颈。最终,K2.6 将 exchange-core 的核心线程拓扑从 4ME+2RE 调整为 2ME+1RE,实现中等吞吐提升 185%、性能吞吐提升 133%。

Multi-Agent 实测:不会带团队,模型干到死

这些任务真正的困难之处在于,它们需要模型在一个长程任务中持续读代码、跑测试、看 profiling、判断瓶颈、修改方案,并用最终指标验证结果。换句话说,模型处理的不是单点的代码生成,而是工程环境中的持续问题求解。这也是为什么 K2.6 值得被放在“组织能力”的框架下讨论。

如果说 Chatbot 时代的模型像一个答题者,Agent 时代是一个执行者,那么对于 Multi-Agent 来说,模型则更进一步成为组织者。

这一点对于开源模型尤为重要。闭源模型可以通过产品形态提供更完整的 Agent 体验,开源模型的优势则在于可部署、可改造、可接入企业内部工具链。Multi-Agent 场景天然需要和具体业务结合,开源模型因此有机会进入 IDE、CLI、自动化测试、数据分析和企业内部知识系统,成为更灵活的任务执行底座。

更大、更快的叙事,已经无法回应 Agent 落地的全部需求。今天的模型更像是专家而非经理,组织能力是一片全新的战场。K2.6 并没有终结这场竞争,它只是指出,下一代模型除了思考,还必须成为一个可靠的组织者。补上这份能力的玩家,才有资格争夺那个更底层的位置。

雷峰网文章

雷峰网特约稿件,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说