0
当大语言模型开始被要求解数学题、写证明、规划任务流程,人们才真正意识到一件事:会生成并不等于会推理。
过去几年,行业把大模型推向前所未有的规模,用 RLHF 和各种奖励技术把答案校准得越来越像人类。但一个越来越尖锐的现实问题也随之浮现:模型为什么有时一本正经地胡说八道?为什么在同一训练框架下,它有时异常自信却错误,有时又显得畏首畏尾?在人们不断强化学习信号、追求更高分数的同时,一个关键问题始终没有被真正回答:正样本与负样本到底在模型内部改变了什么。
正是在这样的背景下,来自人大高瓴学院的赵鑫团队把注意力放在了这一核心问题上。他们没有急于再提出一个更大的模型或更复杂的算法,而是刻意退后一步,围绕 RLVR 框架设计了一整套系统实验:如果只用正样本会发生什么,只用负样本又会产生怎样的行为变化。模型是在真正形成推理能力,还是被奖励函数推着走向某些看似合理的套路?进一步地,在一条完整的推理链中,是否存在少数关键 token,像岔路口一样决定模型是走向正确,还是自信地偏离轨道。
围绕这些问题,研究团队完成了论文《A3PO: Adaptive Asymmetric Advantage Shaping for Reasoning Models》,并提出了推理模型训练方法 A3PO。与其说这是一次方法层面的创新,不如说它首先完成了一次机制澄清:正样本主要收缩策略空间,使模型在既有正确路径上更加笃定,负样本则扩张策略空间,推动模型跳出旧有模式持续探索,而真正决定训练走向的,并非整条样本本身,而是推理过程中那些冷门却正确、以及自信但错误的关键 token。
在这一认识基础上形成的 A3PO 方法,将训练重点从整体样本转向关键决策点,使推理模型的学习过程变得更加可解释、也更可控制。这一转变表明,推理大模型的进步不再只是依赖规模和算力,而正在走向对训练机制本身的深入理解。

论文地址:https://arxiv.org/pdf/2512.21625v1
实验中,研究人员首先对比了正样本和负样本,并发现它们在训练过程中起到的作用完全不同。
具体表现为,当只用正样本训练(PSR)时,模型会变得越来越确定:熵迅速下降,输出分布越来越尖锐,答案长度明显变短,经常直接给出结果而不展开完整推理。这说明正样本更多是在强化已经正确的推理路径,让模型不断重复熟悉的解题套路,同时也会抑制继续探索新路径。

与此相反,只用负样本训练(NSR)时,模型的熵保持在较高水平甚至上升,回答长度变长,推理步骤增多,表现出更强的尝试和探索倾向。这是因为负样本训练主要在削弱错误 token 的概率,使原本集中的概率被分散到其他候选路径上,从而带来更强的探索能力。
不过,实验也表明,两种极端方式其实都不理想:只用正样本容易出现 reward hacking,只报答案不推理,只用负样本训练不稳定,甚至可能生成乱码。整体比较下来,正负样本同时使用(DAPO)时训练曲线更平稳,泛化能力也最好。

在此基础上,研究人员又引入锐化(sharpen)和发现(discovery)两个指标来刻画模型生成内容的变化。锐化指标反映模型是否在重复历史正确答案中已经出现过的 n-gram,而发现指标反映是否产生了新的、从未出现过的 n-gram。雷峰网(公众号:雷峰网)
结果显示,在锐化指标上,PSR 高于 DAPO,DAPO 又高于 NSR,在发现指标上则相反,NSR 最高,DAPO 居中,PSR 最低。这表明正样本更像在磨刀,使已有正确模式变得更熟练、更稳定,而负样本更像在开路,推动模型寻找新的推理方式,两者结合才能既保证稳定性,又拓展能力上限。

研究团队还从极性级 advantage 的角度分析了正负样本权重的影响。以 Qwen2.5-7B-Math 为例,当增大正样本权重(如 P2N1、P1N0.5)时,训练奖励上升更快,但熵明显下降、输出变短,探索能力减弱,权重过大时甚至会过拟合既有模式,而当增大负样本权重(如 P1N5)时,熵和输出长度都更高,探索更充分,但奖励上升变慢,模型表现得更加谨慎。
实验表明,决定训练动态的关键不在于各自权重的绝对大小,而在于正负样本之间的比例,例如 P2N1 与 P1N0.5 的比例相同,曲线表现也非常相似。总体来看,正负 advantage 比例大约在 1:2 左右时,能够较好地兼顾收敛速度与探索能力。

最后,在 token 级别的实验中,研究人员进一步分析了哪些 token 在训练中最关键。结果发现,并不是所有 token 都同等重要,而是两类最关键:一类是正样本中的低概率 token,即冷门但正确的推理步骤,另一类是负样本中的高概率 token,也就是模型非常自信但实际上是错误的部分。
前者需要重点奖励,以保留多样但正确的推理路径,后者需要重点惩罚,防止模型固执地坚持错误答案。新提出的 A3PO 方法正是围绕这两类关键 token 进行非对称加权设计的,这一点也得到了实验数据的支持。
在 Qwen2.5-7B-Math 上,A3PO 在 AIME24 与 AIME25 上分别从 DAPO 的 27.6 和 21.4 提升到 31.5 和 24.8;在 Qwen3-8B-Base 上,也从 34.2/26.1 提升到 37.8/30.4;在 DeepSeek-R1 蒸馏模型上,则从 60.8/50.8 提升到 65.2/54.1。并且,这些提升不仅出现在单一数据集上,而是在 AIME、MATH500、GPQA 等多个基准上同时出现,其中多项结果还通过了显著性检验。
因此,可以认为 A3PO 在保持较强探索能力的同时,确实在不同模型与不同评测任务上带来了稳定且明确的性能提升。

为了得到全面的实验结果,研究人员首先围绕 RLVR 框架搭建了一系列对照实验,目的是不急于提出新方法,而是先把正样本和负样本的作用拆开来看,分别考察只用正样本、只用负样本以及正负样本同时使用时模型的具体表现。雷峰网
实验选择了三种类型不同的大语言模型作为基座,包括数学能力增强的 Qwen2.5-7B-Math、通用预训练模型 Qwen3-8B-Base 以及经过推理蒸馏的 DeepSeek-R1-Distill-Qwen-7B,并分别在三种训练范式下进行对比:只使用正样本更新的 PSR,只使用负样本更新的 NSR,以及同时利用正负样本、目前较常用的 DAPO 方法。

整个训练过程中不仅跟踪模型的熵、生成回答长度和奖励值等指标,以反映其确定性与探索性的变化,还在验证集上测试 AIME25 的 Avg@32 和 Pass@32 等指标,来评估真实推理能力。

在确认正负样本都发挥重要且不同作用之后,研究人员进一步进行粗粒度的参数控制实验,从极性层面调整 advantage 权重。在 Qwen2.5-7B-Math 上,将 RLVR 的损失函数拆分为正样本项和负样本项,通过设置不同的权重组合(如正负 1:5 或 2:1 等),系统比较不同权重比例下模型的熵、输出长度、训练奖励以及 AIME24 上的表现,从而分析正负样本整体权重对训练动态的影响。

在此基础上,研究视角被进一步细化到 token 层面。研究人员不再仅讨论“正负样本整体重要与否”,而是考察一条推理序列内部不同 token 的差异作用。具体做法是根据 token 的熵和概率两个维度,挑选出正样本和负样本中高熵与低熵、高概率与低概率的不同 token 类型,然后分别对这些 token 的 advantage 进行大幅放缩,例如乘以 0.2 或 5,观察模型训练曲线与生成行为随之发生的变化,从而找出真正对训练最敏感、最关键的 token 区域。

在完成以上一系列分析之后,研究团队提出了新的 A3PO 方法,其核心思想是在 RLVR 目标中引入自适应且非对称的 token 级 advantage 加权机制:对正样本中低概率的 token 给予更高奖励,以鼓励保留多样但正确的推理路径,对负样本中高概率的 token 给予更强惩罚,以重点纠正模型自信但错误的推理。同时,这些加权系数在训练过程中逐步衰减,使模型能够从前期的更强探索自然过渡到后期的稳定收敛。
实验采用与前述相同的三种模型,在 DAPO-Math 数据集上进行训练,基于 Verl 与 vLLM 的离线强化学习框架,每个提示生成 8 个样本,训练 300 步,并与 GRPO、DAPO、W-REINFORCE、DAPO-Fork-Tokens 和 Lp-Reg 等方法进行对比,测试任务涵盖 AIME24、AIME25、MATH500、GPQA 与 LiveCodeBench 等多个推理基准。

此外,研究团队还系统评估了 A3PO 在不同模型规模和不同训练数据集上的泛化能力,并对其关键超参数(包括 token 选择比例、初始缩放系数 ρ 以及衰减系数 α)进行了敏感性分析,从而形成完整的实验设计框架。
整体来看,这项研究的核心意义在于,它把原本相对模糊的 RLVR 训练过程,转化为一个具有清晰结构和内部机制解释的框架。过去在强化学习训练推理模型时,人们大致知道需要正样本,也会使用负样本,但往往难以回答一个根本问题:正负样本各自在训练中究竟起什么作用,它们如何改变模型的学习动力学。
这项工作通过系统实验给出了明确答案:正样本主要收缩策略空间,使模型已经掌握的正确模式更加集中和稳定,负样本则扩张策略空间,迫使模型脱离旧有模式,去探索新的推理路径。更重要的是,研究并未停留在正样本锐化能力、负样本促进探索这样的概括层面,而是进一步指出训练质量真正取决于哪些具体决策点被重点强化。
研究表明,正样本中那些原本选择概率较低但通向正确答案的 token,以及负样本中那些模型高度自信却指向错误答案的 token,对探索与利用平衡具有决定性影响。
A3PO 的设计正是把这一认识具体化为训练原则,在这些关键拐点上进行非对称 advantage 放大,并随训练进程逐步衰减这种偏置。由此,强化学习不再只是简单地增加正确奖励或扣减错误分数,而是转向围绕关键局部决策点有针对性地塑造策略分布。这样的视角,使正负样本从被动的数据来源,转变为可被精细调控的优化工具,也把方法研究从经验性调参提升到机制性设计层面。
从更长远看,这一思路为大模型对齐、多模态推理以及智能体决策中的强化学习提供了共同的方向,即不再平均对待所有行为信号,而是抓住那些对整体策略结构影响最大的关键 token 和关键状态进行重点塑形。
这篇论文的通讯作者为赵鑫,现任中国人民大学高瓴人工智能学院教授、长聘副教授,同时他也是国家优青项目获得者。
赵鑫教授于 2014 年 7 月在北京大学取得博士学位,之后就职于中国人民大学,至今一直从事教学与科研工作。他的主要研究领域为信息检索与自然语言处理,目前已发表学术论文 200 余篇,谷歌学术引用量超过 1.8 万次。
他牵头开发了开源推荐系统工具 RecBole(伯乐)和文本生成工具 TextBox(妙笔),并组织撰写了《A Survey of Large Language Models》综述论文及中文专著《大语言模型》。
赵鑫教授先后获得吴文俊人工智能优秀青年奖(2020)、ECIR 2021 时间检验奖、RecSys 2022 最佳学生论文提名、CIKM 2022 最佳资源论文提名等荣誉称号,同时入选中国科协青年人才托举工程、北京智源青年科学家和 CCF–IEEE CS 青年科学家计划,其系列研究成果还荣获教育部自然科学一等奖、北京市自然科学二等奖及中国计算机学会自然科学二等奖。

参考链接:https://gsai.ruc.edu.cn/waynexinzhao
雷峰网原创文章,未经授权禁止转载。详情见转载须知。