异构智能体自主协作，大模型扮演了什么角色？

本文作者：黄楠

2023-08-25 14:18

导语：「机器人总动员」的世界，正在成为现实。

2700 年地球巨型的垃圾场上，仅剩下机器人瓦力重复着收集、压缩垃圾的每一天，枯燥日常中，它诞生了自我意识，对人类影像画面中交流产生好奇、感受到自己作为最后一个机器人的孤独。直至一个更聪明、更敏捷的探测机器人伊娃的出现打破了一切。

具备深度理解人类指令和执行任务的能力，可以用眼睛表达情感，《机器人总动员》里的伊娃是人们对未来智能机器人的想象。在 AI 大模型的浪潮之中，人与机器共存，以大模型控制智能体成为新的交互模式。

近日，李学龙团队提出了一个大模型驱动的异构智能体协同控制算法框架，通过大模型调度多种智能体自主协作，可实现对无人机集群、机器狗、机械臂的真机协同控制。

懂所思、知所能、行所意，是大模型驱动多智能体协作的主要能力。

智能体可赋予大模型物理实体，使其具备与真实物理世界感知交互的能力。而借助大模型，智能体也能获得更强大的感知、决策和执行能力，使其具备更高的自主性和适应性。经过该研究的探索，可进一步推动机器人和自动化行业的发展，创造出更多的就业机会和经济增长。

大模型下的异构智能体协同

人工智能场景分工趋向细化，探索 AI 工程化路径中，大模型控制智能体是大势所趋。

此前有关大模型的讨论多聚焦在大语言模型上，由于大模型技术没有具身化，因此在解决自动驾驶、机器人等复杂的自然环境感知、认知问题时仍具有局限性，并且这些难题往往无法依靠“喂数据”来实现。

一句形象的描述是，纸上得来中觉浅，绝知此事要躬行。面对真实世界的复杂问题，大模型解决问题的能力必须通过与物理环境、对象进行互动才能发展。

如何将大模型同具身智能技术结合？

近日，李学龙团队提出了一个大模型驱动的异构智能体协同控制算法框架，基于大模型对多种智能体的调动，可实现无人机集群、机器狗、机械臂的真机协同控制能力。

面对跨场景、跨智能体的复杂任务，该算法框架可通过语义任务解析、拆分成异构智能体协同执行的多个子任务，联合控制无人机集群、机器狗、机械臂来共同完成指定任务，具备高层语义理解能力、自身技能认知能力和复杂任务执行能力。

要实现大模型异构智能体自主协同，离不开三大方面的能力：懂所思、知所能、行所意。

懂所思，指的是要发挥大模型对高层语义的理解能力。通过给无人机、机器狗、机械臂等人造智能体输入指令，让不同的智能体依据所输入的自然语言进行分工合作，这是智能体在现实场景中执行复杂任务的前提条件。

为了解决语义理解问题，李学龙团队以国产大模型作为语义理解底座，将无人机集群、机器狗、机械臂三种异构智能体作为协同控制平台，设计了融合环境信息与自身状态的多模态大模型交互框架，可对任务理解、硬件控制、协调合作等复杂需求的语义解析。

异构智能体自主协作，大模型扮演了什么角色？

知所能，即是指智能体对自身技能的认知能力。智能体的行为能力容易受到周围环境、自身机械结构等限制因素的影响，面对复杂多变的外界环境，如何让智能体能够准确地认知当前自身的行为能力，是多种智能体协同的关键环节。

为了实现这一目标，团队提出异构智能体通用中层技能认知算法，可实现对异构智能体集群的精细协同控制。同时，在此基础上，智能体还可以通过自主环境感知、自身状态建模、协同运动规划，自适应地调整多种智能体的技能执行。

异构智能体自主协作，大模型扮演了什么角色？

行所意，指的是智能体面对复杂任务时的执行能力。为了应对复杂的任务目标，异构智能体协作时，往往需要依据子任务间的依赖关系和环境约束，设计安全合理的子任务执行次序和方式。

针对该问题，李学龙团队提出了多智能体闭环反馈的任务协作机制，以实现异构智能体在任务执行层面的自主协同。在多种智能体集群协作过程中，智能体首先会向任务语义解析模块报告子任务执行状态，形成任务分配与执行动态闭环，实现任务目标导向的智能体高效协同。

异构智能体自主协作，大模型扮演了什么角色？

可以看到，通过大模型调度多种智能体自主协作，大模型具备了对无人机集群、机器狗、机械臂等智能体的真机协同控制能力。

智能体可赋予大模型物理实体，使其具备与真实物理世界感知交互的能力。而借助大模型，智能体也能获得更强大的感知、决策和执行能力，使其具备更高的自主性和适应性。

该成果是大模型算法和智能体硬件交叉的创新性研究，实现了用更自然、更直观的方式进行多种智能体集群控制，降低了人机交互的门槛。同时，该研究也将促进异构智能体之间协作的自主性和流畅度，对人工智能在灾难救援、工业生产等复杂场景下的灵活应用具有重要意义。

此外，李学龙和团队长期致力于临地安防技术体系的人才培养、科研与工程，依托两个理论：“信容（信息与数据的比值）”与“正激励噪声（Pi/π-Noise，有用的噪声，通过增加噪声或利用噪声让任务做得更好）”，面向低空安防、水下安防、跨域安防，进行多模态认知计算、跨域遥感、稳定探测、涉水光学、群体智能决策、相干光探测的技术创新，服务于高水平人才培养和国家重大战略需求。

为进一步了解“大模型异构智能体”的工作，AI 科技评论沿该方向与李学龙教授进行一次深入对话。

对话李学龙

AI 科技评论：无论哪个领域/行业，大模型都是人们讨论的焦点。对此次大模型带来的技术变革，您有什么感受？

李学龙：大模型技术确实给很多行业带来了重大影响，许多方面也超出我的能力范围，我也在学习。我尝试从两个角度来回答：

首先，大模型的应用前景非常广阔，尤其进入多模态的阶段或者说时代。

大模型可以在短短几十秒内进行文稿撰写、图案设计之类的工作，过去这需要专业人员花耗一两天、甚至十多天才能完成，而在大模型的帮助下，人们在图文方面的工作效率被成倍地提高。与此同时，大模型也开始在金融、医疗等领域展现出更准确的数据分析能力和决策能力。可以说大模型的出现再次提高了人类社会的生产力，并且也为人工智能本身的发展创造了新的机遇，反向推动了诸如参数微调、高性能计算、分布式训练等技术的蓬勃发展。

但是，不可避免，大模型也可能带来新的问题与挑战。我对大模型的发展是有一些顾虑的，也观望了很久。核心技术需要进一步突破，避免主要比拼算力的发展模式。更重要的，还有其他很多因素需要考量，举几个最直接的例子。大模型需要海量数据来训练，这里就很容易触及数据隐私和版权的问题，甚至是输入数据的有效性和合理性问题，给监管提出了很高的要求。如何把关所用数据质量？另外，如何评测大模型性能？如何消除大模型可能存在的偏见与歧视？如何提升大模型可解释性、避免虚假生成？等等一系列问题也都没有被很好地解决。

当然，挑战和机遇是并存的。总的来说，大模型的技术变革是一次深刻的积极探索和尝试，它既带来了性能的提升，惠及千行百业，也可能会引发一系列问题，这些问题需要相关的规则和政策来解决。我们应该秉持科学的态度，不断探索和挖掘大模型背后的认知机理和社会价值，确保人工智能的健康、可持续发展。

AI 科技评论：您是从什么时候萌生了做大模型驱动多智能体的想法？具体做了哪些工作？

李学龙：关于智能体的研究，我们团队从很早就开始了。我们在无人机、机械臂的视觉感知方面有一定的积累，也在无人机远程供能等一些相关的技术上进行了研究，实现了“光动无人机”。

但进入现实问题时，大家知道，单一的智能体很难满足真实任务中多样化、动态化的需求。比如，无人机能够在超大范围内高速移动，却很难完成抓取这样的简单操作，虽然我们也在给无人机装胳膊，但还在实验阶段。

所以，我们一直在探索智能无人系统方面的工作，结合各个智能体的机械结构特点，设计了相应的感知、规划、控制以及联合调度等算法。但是这个阶段，我们需要对不同的环境、任务做出特定的调整，也必须由专业人员操纵才能完成任务。在这个研究中，又产生一系列新的问题，比如怎么样用比较模糊的语义去同时与多个智能体交流，这涉及到多个智能体对语义的理解，以及智能体互相配合的方式。

大模型的发展给了我们一些帮助，我们着手大模型异构（各种各样的）智能体方面的研究，把这作为实现需求牵引的一种技术途径。利用大模型的语义理解和逻辑推理能力，尝试与不同智能体的领域知识进行融合，争取更加合理地分解和分配任务。我们希望对于不同任务，都能通过一个简单的、模糊的语言指令，就调动一群智能体，让它们各司其职、通力合作去完成任务，最终实现更智能、更轻松的人机交互。这是我们目前的一种工作思路，还有其他的工作思路也在同步探索。

AI 科技评论：大模型异构智能体要实现懂所思、知所能、行所意，其底层的技术原理是什么？这三者之间有怎样的相互联系，如何发生作用？

李学龙：我们把大模型控制多智能体的关键技术分为三步。

懂所思，也就是让大模型知道我们想要什么，可以通过微调、示例这些方法充分发挥大模型的语义理解能力，让它更深入地解读人类模糊语言指令背后的想法，这是人机交互的基础。

知所能，是梳理不同智能体的领域知识，把这些知识注入到大模型中，让模型清楚地了解各个智能体不同的能力，从而合理地进行任务分解和分配，这是完成任务的前提。如果没有这一步，系统是无法完成任务的。比如，让机器狗游泳过一条河去送文件，这种安排就不合理。

行所意，是在前两者的基础上，协调各个智能体以合理的次序执行复杂的任务，实现我们的意图。在这部分我们进行了任务分配、动作执行和状态反馈的动态闭环设计，是整个系统的关键。

AI 科技评论：由于多智能体与物理空间的互动特性，因此在研发过程中，对大模型的逻辑语义理解能力、认知能力也提出了更高的要求，对此，您和团队是如何解决的？

李学龙：多种智能体需要与周围环境进行互动，这确实为大模型带来了一些新的挑战。为了增强任务执行能力，我们团队至少从环境感知、语义解析、任务反馈三个方面采取了措施，此外还有其他思考。

首先，我们设计了多模态认知计算框架。利用图像、点云、声音和触觉等多模态数据，对物理环境进行感知，使智能体对周围世界的颜色、纹理、形状、力觉反馈等有全方位的把握，从而更准确地进行认知。

然后，我们加强了语义理解和技能认知的联系。通过将异构智能体的领域知识融入到大模型里，在我们demo的这个例子中，大模型能够意识到道路不通的情况下，无人机是不能飞过的，而机器狗是能够开门的。所以，当我们让无人机去拿食物时，大模型知道要去检查路径、让机器狗开门，这就是语义理解和技能认知联系起来的效果。

同时，我们还设计了任务反馈的闭环执行方案。在任务执行的过程中，每个智能体都会向大模型报告子任务的执行状态，这样一来大模型就能够及时地掌握整体环境信息和任务状态，从而做出最优的规划和决策，直到任务完成。

通过这些步骤，我们尽可能地让大模型更全面地理解场景和任务，把周围的环境映射到语义空间，再把语义指令体现在智能体的动作上，来实现大模型和物理空间的互动。

AI 科技评论：您和团队很早就开始关注多模态认知计算方面的工作，这对此次大模型驱动多智能体的研发带来了哪些方面的影响？

李学龙：2003 年，我在英国任教期间，为信息领域的学生们新开设了一门课程——“认知计算”，课程设计自 2002 年开始，后来在 IEEE 的 SMC 协会，我还发起成立了“认知计算”的技术委员会。对多模态大模型的到来，我们是一直有期盼的，因此自 2020 年开始，我和团队就着手写了一篇多模态认知计算的文章，于 2022 年发表在在《中国科学：信息科学》上，文章题目就叫《多模态认知计算》，用 32 页的篇幅尝试性探讨了多模态认知计算的理论框架。

我们一直坚信，多模态认知计算是实现通用人工智能的关键技术之一。

这次关于大模型驱动智能体的研究工作，实际上是多模态认知计算研究的一个载体。我们希望通过让多智能体与环境进行多种模态的交互，将团队之前在多模态认知计算方面的技术嵌入式地体现到了这个研究中，让多智能体能全方位地感知周围世界。同时，我们还把环境信息、任务指令和技能认知统一映射到语义空间，结合大模型的语义理解能力，使多智能体能够解决复杂任务。实际上，传统上各个学科的边界逐渐弱化，尤其在工程任务中，往往涉及很多方向的工作。

AI 科技评论：大模型驱动多智能体在现实场景的具体应用有哪些？以具体场景为例，介绍其是如何发挥作用的。

李学龙：我们这套系统的核心是由大模型负责中枢控制，不同的智能体各施所长，通过这样的方式来完成复杂的任务。比如在发生灾害的时候，大模型可以分析收集到的信息，向无人机集群、机器狗和机械臂下达指令，无人机可以大范围侦察，机器狗和机械臂可以进行现场搜救。同时，智能体也可以自主地交互，完成群体协作。

这种系统的特点是只需要一个模糊的指令，就能让各种各样的智能体动起来，来完成一个复杂的任务，就像电影“机器人总动员”中那样。我们也在思考并尝试把这项技术用在更广泛的场景中。

AI 科技评论：由于大模型技术没有具身化，以至于在解决物理感知、认知问题时仍具有局限性，并且这些难题也无法依靠“喂数据”来实现，因此，过去很多的多模态任务在目标和场景交互上都较为局限，您如何看待多智能体在大模型发展中的重要作用？

李学龙：这个问题很深刻，我尝试回答一下，可能不准确。现在大家普遍认为大模型在物理感知和认知方面存在局限，很大一部分原因是它只有大脑没有身体，只能被动地接收信息。

从技术上来说，有数据、场景和学习方式三个方面的问题。

首先，大模型的训练数据形式还比较有限。现在的大模型大多是在文本数据和图像数据上训练，很难形成全方位的感受真实，也就是数据模态还不够多。其次，训练数据覆盖的场景也有限，虽然我们的数据量很多，但很难覆盖现实中的所有场景，比如深空和水下，大模型学习到的常识可能并不适用于它实际面对的问题。最后，大模型的学习方式是被动的。人类可以自主地去学习，而大模型主要还是依赖人类给它准备好的数据，就像柏拉图的“洞穴寓言”，大模型从出生开始就只能看到人类给它展示的世界，这不是真实的世界。

多智能体恰恰可以作为大模型的眼、耳、手、脚。让无人机和机器狗带着大模型去看，让机械臂带着大模型自己去感受，也可以让水下潜器带着它了解海底的世界，这样它才能对身处的环境产生全面的、立体的感知，才能和物理世界建立真实的联系，才能适应我们生活中面临的各种场景。

AI 科技评论：大模型驱动多智能体是算法和硬件交叉的创新性研究，是一个重要趋势和方向，但如果要进入落地环节，目前还存在哪些难点或痛点亟待解决？其进一步发展的关键点是什么？

李学龙：谈到落地，我现在能想到的难点有四个。

第一是算力。这里的算力，主要是指移动平台的算力。大模型的运行需要庞大的计算资源，实际应用面临的首要问题，就是如何让大模型在移动智能体上跑起来，兼顾实时性和高效性。

第二是安全。有了机械臂、无人机这些物理实体，大模型就可能直接对人类的安全构成威胁。我们在使用的时候，要确保这些智能体不被恶意操控。

第三是伦理。大模型+多智能体这样的组合，它是生活在我们的真实世界中的，这可能就会产生伦理问题。比如，智能体可能需要为大模型寻找甚至生成更好的训练数据，这个过程中我们要确保智能体的行为符合伦理，不侵犯人类隐私。

第四是新型智能体设计。人类在发明机器狗、机械臂、无人机、水下潜器的时候，大模型还没有出现。有了大模型以后，什么样的智能体是适合大模型的，还需要探讨，这在未来可能会有相关的研究。

上面提到的四个问题，每一个都很复杂。任何一个问题，都需要汇聚各行各业的力量去解决。大模型驱动多智能体这项研究，也需要不同领域的研究人员一起推动。我们对大模型的认识还不够，除了上面提到的难点，还有其他一些问题我们目前还没有想到，需要在推动的过程中发现和解决。感谢这个时代和领域的快速发展，让我们一直有机会学习新的知识、接触新的问题，

可以畅想，随着机电、材料、传感、计算这些技术的发展，大模型驱动多智能体这项研究可能会带动人工智能领域的进步，也具备推动生产力发展的潜力。

（雷峰网雷峰网(公众号：雷峰网)）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

黄楠

主笔

倾听科技和商业的故事，关注AI人物、技术变革。｜微信：finfl26est

发私信

当月热门文章