您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给郑佳美
发送

0

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

本文作者: 郑佳美   2026-02-12 14:02
导语:智能体性能优势并非来自更多尝试,而来自对失败路径的精确处理。

过去几年,大语言模型的能力提升主要依赖参数和数据规模的扩张。但当模型逐步被用于研究助理、网页搜索和复杂决策支持等真实任务时,这条路径开始显露边界。

这类场景往往要求模型在开放环境中进行多轮搜索与推理,使搜索增强推理成为主流范式,同时也暴露出一个核心问题:模型在长链搜索推理中的失败,往往不是因为推理能力不足,而是无法有效处理错误在推理过程中的出现与传播。

在现实任务中,搜索结果不可避免地包含噪声,一旦早期某次检索或信息采信出现偏差,后续推理就可能在错误语义空间中不断自洽,最终生成看似合理却偏离问题的答案。然而,现有训练方法通常只依据最终答案是否正确进行优化,使“偶然成功”的轨迹与“搜索路径可靠”的轨迹获得相同反馈,长期来看反而削弱了模型对中途错误和搜索质量的约束。这也是多轮搜索、多跳推理任务中性能崩溃呈现系统性特征的重要原因。

在这一背景下,MBZUAI 、港中文和腾讯混元组成的联合团队提出了《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》。

这项工作直指搜索增强推理中的长链推理信用分配与中途纠错缺失,通过将推理生成、轨迹判断和错误定位纳入统一的强化学习框架,使训练信号能够回传至错误首次发生的位置,从而抑制错误传播。

在智能体系统逐渐从“展示能力”走向“承担任务”的当下,这项研究的意义不在于提出一种更复杂的工程技巧,而在于为搜索型智能体提供了一种更接近真实失败模式的学习范式:不是假设推理过程天然可靠,而是承认错误不可避免,并让模型在训练中学会与错误共处、定位并修正它们。

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

论文地址:https://arxiv.org/pdf/2602.03647

完整闭环,而不是单一技巧

在实验结果方面,研究团队发现该方法的优势并不仅体现在整体平均性能的提升上,而是在任务难度最高、错误最容易累积的场景中表现得尤为突出。

实验评测覆盖了普通事实型问答任务和多跳推理问答任务两大类,其中前者通常只需要一到两次检索即可完成,而后者必须经历多轮“搜索—推理—再搜索”,中间任何一步出现偏差都会在后续推理中被不断放大。

实验结果表明,该方法在两类任务上均取得稳定提升,但在多跳推理任务上的提升幅度明显更大,尤其是在 HotpotQA、2WikiMultiHopQA 和 Bamboogle 等需要多轮检索协同推理的数据集上,相较基线方法带来了数个百分点到十余个百分点不等的准确率提升,其中在 Bamboogle 数据集上的相对提升幅度超过二十个百分点。

这一现象表明,其优势并非来源于更强的参数记忆能力,而是源于对长链推理过程中错误传播的有效抑制。研究人员指出,多跳推理任务的失败往往并不是由于模型无法生成最终答案,而是由于中途某一次搜索引入了错误或无关信息,使推理方向发生偏移,之后即便继续搜索和推理,也只能在错误语义空间中反复迭代,这个方法正是针对这一失败模式进行设计,因此在此类任务中的优势被显著放大。

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

在与拒绝采样策略的对比实验中,研究团队进一步提高了基线方法的采样预算,将每个问题的采样次数提升至原来的两倍甚至更多,但实验结果显示,即便在这种条件下,基线方法的整体性能仍然低于该方法在较小采样预算下所取得的结果。

这一对比表明,该方法的性能提升并非来自“多试几次总能蒙对”的概率收益,其关键不在于整体轨迹质量分布的上限,而在于是否能够准确识别错误首次出现的位置并进行针对性处理。拒绝采样在生成失败后会直接丢弃整条推理轨迹并重新生成,而该方法则认为失败轨迹的前半部分往往仍然是正确且有价值的,真正导致失败的通常是某一次具体的搜索步骤,这次搜索所引入的噪声会在后续推理中持续放大,从而使两种策略在长链推理任务中的样本效率产生数量级差异。

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

为进一步分析性能提升的来源,研究团队通过消融实验系统性地评估了各个组成模块的作用。实验结果显示,在仅引入中途纠错机制而不加入过程奖励的情况下,模型在多个数据集上的性能已经出现显著提升,表明对推理过程中关键错误进行定位和修复本身就能解决搜索增强推理中的核心瓶颈。雷峰网(公众号:雷峰网)

在此基础上,加入用于衡量搜索结果信息密度的过程奖励后,模型性能进一步提升,说明显式区分高质量搜索与低质量搜索能够为训练过程提供更加稳定的优化方向。

最终,在对推理生成模块与纠错模块进行联合优化的完整设置下,模型在所有评测数据集上均取得最优结果,这表明纠错能力并非静态规则,而是一种需要在训练过程中被逐步学习和内化的行为策略。

整体来看,该方法的性能提升并非来源于单一技巧或额外计算量的堆叠,而是由中途纠错、搜索质量建模和联合优化共同构成的完整机制所带来的结果。

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

把纠错本身纳入策略空间

在实验方法设计方面,研究团队首先指出,仅依赖最终答案是否正确作为强化学习的奖励信号,在搜索增强推理任务中会系统性失效。

研究人员分析认为,在此类任务中,模型实际上需要连续做出多尺度决策,包括是否发起搜索、搜索的具体内容、搜索发生的时机,以及在获得检索结果后是否应当信任并使用这些信息。

然而传统强化学习只提供“最终答对或答错”的单一反馈信号,无法区分这些中间决策的质量差异,从而导致依靠运气在最后阶段拼凑出正确答案的推理轨迹,与逻辑结构严密、搜索路径合理的轨迹获得完全相同的奖励。

长期训练后,模型会逐渐学到搜索行为可以随意展开、早期错误不会受到实质性惩罚,只要最终答案能够生成即可,这正是现有搜索增强方法在长链推理任务中容易发生性能崩溃的根本原因。

基于这一问题,研究团队在方法中对不同功能进行了明确分工。其中,推理生成模块负责像常规搜索增强方法一样,完整生成一条包含推理与搜索行为的轨迹,该模块被允许在生成过程中犯错甚至进行探索,不承担中途自检或修复的职责。

随后,引入的纠错模块首先对整条推理轨迹进行判断,其关注重点并非最终答案是否正确,而是推理过程是否仍然围绕原始问题展开,是否出现明显的实体偏移、主题漂移或证据错位等现象。这一判断决定了轨迹是否值得继续修复,若标准过于宽松,错误轨迹会被放过,若过于严格,则高质量轨迹会被反复打断,因此这一接受与拒绝之间的平衡并非人工设定,而是通过强化学习过程自动习得。

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

当轨迹被判定为需要修复时,系统进一步定位推理过程中第一次发生实质性偏离的位置,即具体是哪一次搜索或推理操作将系统带离了正确的推理空间。雷峰网

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

一旦该位置被识别,系统会完整保留此前已经生成的推理前缀,丢弃其后的内容,并从该点重新生成后续推理,从而避免浪费已有的正确推理信息,同时使奖励信号能够精确回传至错误发生的位置,促使模型逐渐学会哪些搜索错误最具破坏性并应当被避免。研究人员在理论分析中将这一错误定位能力形式化为修剪能力,并证明其是整体性能提升的必要条件。

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

为防止模型出现“只修正结果而忽视错误根源”的投机行为,研究团队在训练过程中进一步引入了过程层面的奖励信号,用于衡量检索到的证据中有多少是真正支持最终答案的信息而非噪声内容,并明确规定该过程奖励仅在最终答案正确的前提下才会生效,从而保证搜索质量成为达成正确答案的必要条件,但不足以单独驱动优化目标。

最后,推理生成模块、轨迹判断模块和错误定位模块并非相互独立,而是共享同一套参数,并在同一强化学习目标下进行联合优化,将是否触发纠错以及在何处纠错都视为策略决策的一部分,使模型在训练完成后,即便不显式触发多次修复,其初始生成的推理轨迹质量本身也能够得到显著提升。

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

一种更贴近失败模式的学习思路

从强化学习的角度来看,这项研究解决的并不是单一模块或训练技巧的问题,而是搜索推理中长期存在的信用分配难题。在长链搜索推理过程中,模型需要在多个时间尺度上连续做出决策,而传统方法只能依据最终答案是否正确进行回报分配,导致无法区分高质量推理轨迹与依赖偶然性的成功轨迹。

研究团队通过引入轨迹筛选、错误定位和受控纠错三种机制,将原本难以处理的信用分配问题拆解为可操作的学习目标,并在理论分析中证明,只有当模型能够区分哪些轨迹值得保留、能够定位导致推理偏离的关键错误位置,并在训练过程中触发数量适当的纠错操作时,整体性能才会稳定提升。

这一结论并非经验归纳,而是通过形式化分析给出的必要条件。在方法层面,该研究进一步改变了以往反思与修正仅依赖人工提示的做法,将是否进行反思以及在何处进行修正纳入策略空间,使其成为可以通过强化学习直接优化的决策行为,从而避免了人工提示不可学习、效果不稳定的问题。

与此同时,这个方法的设计直接针对真实智能体任务中常见的失败模式,即搜索结果本身存在噪声、推理过程依赖较长的决策链条,以及早期一次错误可能对后续推理产生不可逆影响。

通过在推理过程中显式建模错误传播并提供中途干预机制,该研究为搜索型智能体在复杂任务中的稳定运行提供了一种更具针对性的解决思路。

Search-R2 的研究者们

这篇论文的一作是何博威,目前在 MBZUAI 的机器学习系担任博士后研究员,合作导师为刘学教授。在此之前,他是香港城市大学计算机科学系的博士研究生,师从马辰教授,研究方向包括 Data Mining,Language Model,AI for Science(和清华/香港城市大学马维英教授团队合作),和 Agentic AI。

他最近主要关注围绕 AI Agent 的一系列前沿探索性课题,包括智能体强化学习,智能体记忆,长时程智能体,智能体终身演化,智能体世界模型,和智能体数据 Scaling Laws 等。

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

参考链接:https://scholar.google.com/citations?user=1cH0A9cAAAAJ&hl=en&oi=ao

这篇文章的共同一作为 Minda Hu,目前是香港中文大学计算机科学与工程系的博士研究生,并在 MISC Lab 从事研究工作,导师为金国庆教授。

他的研究兴趣主要包括数据挖掘、机器学习和自然语言处理,并关注机器学习、社会计算与自然语言处理等方向的交叉问题,当前的研究重点在于探索如何更高效、有效地利用大语言模型,以提升模型在实际应用场景中的推理能力与整体效能。

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

参考链接:https://misc-lab.cse.cuhk.edu.hk/sciencex_teams/minda-hu/

除此之外,该项工作得到了麦吉尔大学,香港城市大学,和爱丁堡大学等多位研究者的参与和贡献。而该 paper 标题 Search-R2 还得到了来自 UIUC 和 Google 的 Search-R1 作者团队的官方授权

雷峰网原创文章,未经授权禁止转载。详情见转载须知

腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说