北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

本文作者：郑佳美

2026-03-18 14:52

导语：TARA：融合生物知识与视觉特征，提升模型推理能力。

近年来，多模态大模型的发展正在不断推动视觉理解能力的提升。从图像分类、目标检测到视觉问答等任务，视觉系统已经能够在多种场景中实现较高水平的识别和推理能力。然而，在更复杂的层级视觉识别任务中，现有模型仍然存在明显不足。

现实世界中的许多视觉概念天然具有层级结构，例如生物分类体系中的“界—门—纲—目—科—属—种”，以及商品分类、医学诊断等领域中的多层级标签体系。这类任务不仅要求模型识别具体类别，还需要理解不同类别之间的层级关系和语义结构。但目前多数视觉模型仍然基于扁平分类框架进行训练，在进行层级预测时容易出现分类路径不一致或层级关系冲突等问题。

与此同时，在开放世界环境中，视觉模型还需要具备识别未知类别的能力。以生物识别任务为例，现实世界中的物种数量远远超过现有数据集的覆盖范围，新的物种仍在不断被发现。

当模型面对训练数据中未出现的类别时，往往难以进行合理推断。如何利用已有知识帮助模型理解类别之间的层级结构，并在有限数据条件下推断未知类别，逐渐成为当前视觉智能研究中的重要问题。

在这一背景下，北大王选所的彭宇新团队在论文《Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models》中提出了一种新的方法 TARA。

他们通过引入生物基础模型中的分类学知识，并将其与多模态模型的中间表征进行对齐，使模型能够学习到具有层级结构的视觉表示，从而提升模型在层级视觉识别任务中的一致性表现，并增强其在未知类别识别任务中的泛化能力。

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

论文地址：https://arxiv.org/pdf/2603.00431

TARA 让多模态模型更懂「层级关系」

实验团队通过在多个数据集和多种评价指标下开展实验，对提出的 TARA（Taxonomy-Aware Representation Alignment）方法在层级视觉识别任务中的有效性进行了验证。

首先，在已知类别识别能力方面，研究在 iNaturalist-2021（iNat21）数据集上进行了实验。该数据集包含大量具有层级分类结构的生物图像，并划分为植物和动物两个子数据集。实验结果表明，在引入 TARA 方法之后，模型在多个评价指标上均获得明显提升。雷峰网

在 iNat21-Plant 数据集上，Qwen3-VL-2B 基础模型在经过强化学习微调后，层级一致性准确率（HCA）由 9.23% 提升到 12.78%，叶节点准确率（Accleaf）由 31.96% 提升到 32.66%，同时 POR、S-POR 和 TOR 等层级评价指标也分别提升约 3% 至 6%。

在 iNat21-Animal 数据集上，HCA 由 8.57%提升到 10.26%，Accleaf 由 29.32% 提升到 30.77%，其他层级指标也均呈现提升趋势。对于规模更大的 Qwen2.5-VL-3B 模型，在植物数据集上的 HCA 提升至 19.53%，在动物数据集上的 HCA 提升至 24.02%，各项指标均持续提高。以上结果表明，TARA 方法能够稳定提升不同规模多模态模型在层级分类任务中的整体性能。

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

其次，在未知类别识别能力方面，研究团队为了验证模型是否真正学习到分类学知识，而非仅仅记忆训练类别，在 TerraIncognita 数据集上进行了测试。该数据集包含大量稀有或未知物种图像，其中部分物种可能从未出现在训练数据中。

实验结果显示，在已知类别场景下，Order F1 从 23.30 提升到 41.56，Family F1 从 11.47 提升到 25.47；在未知类别场景下，Order F1 从 23.30 提升到 33.45，Family F1 从 11.47 提升到 12.67。这一结果表明，TARA 不仅提升了模型对已知类别的识别能力，同时也显著增强了模型在面对未知物种时的泛化能力。

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

再次，在模型表征能力方面，研究人员通过线性探针实验进一步分析了 TARA 对视觉特征表达能力的影响。实验过程为从模型最后一层提取图像 token 表征，并利用线性分类器进行训练，在 iNat21-Plant 数据集上测试分类准确率。实验结果表明，原始模型的分类准确率为 13.30%，加入强化学习后提升到 14.40%，在进一步引入 TARA 方法之后准确率提升到 18.30%。这一结果说明 TARA 能够帮助模型学习到更加具有判别力的视觉特征表示。

此外，在分类型视觉问答任务方面，研究团队在 ImageWikiQA 数据集上对模型性能进行了测试。该数据集包含基于 ImageNet 图像的复杂视觉问答任务。实验结果显示，基础模型的准确率为 46.60%，经过强化学习微调后提升到 48.70%，在引入 TARA 方法之后进一步提升到 51.40%。这一结果表明，通过增强层级视觉理解能力，可以进一步提升模型在复杂视觉理解和推理任务中的整体表现。

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

最后，在训练效率方面，研究人员对模型训练过程中性能变化进行了分析。实验结果显示，在训练早期阶段，引入 TARA 的模型性能已经超过基线模型；在相同训练步数条件下，TARA 模型的 HCA 指标和叶节点准确率均高于未使用该方法的模型，说明这种方法能够加速模型的训练收敛过程。同时，由于 TARA 仅增加少量投影层，因此整体计算开销较小，对训练效率影响有限。

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

从数据到训练的完整实验框架

为了验证方法的有效性，研究团队设计了一套完整的实验流程，其中包括模型训练方案、数据集构建方式以及评价指标体系的设计。首先在实验数据集方面，研究人员选取了多个具有代表性的公开数据集进行实验。

其中 iNaturalist-2021（iNat21）是一个大规模生物图像数据集，包含完整的生物分类体系。该数据集包含两个子集，其中 Plant 子集包含 4271 个物种类别，Animal 子集包含 5388 个物种类别。数据集中每个样本都具有六级分类结构，即 Kingdom、Phylum、Class、Order、Family 和 Species 六个层级，因此非常适合用于层级视觉识别研究。雷峰网(公众号：雷峰网)

除了 iNat21 数据集之外，研究团队还使用了 TerraIncognita 数据集来测试模型在开放世界环境下的识别能力。该数据集包含来自中美洲和南美洲生物多样性热点地区的昆虫图像，其中许多物种缺乏公开图像数据，并且部分物种可能尚未被科学界正式记录，因此能够用于评估模型在未知类别识别任务中的表现。

与此同时，研究人员还使用 ImageWikiQA 数据集对模型在复杂视觉问答任务中的表现进行测试。该数据集中的问题涉及真实世界知识，需要模型同时完成图像理解和知识推理，从而能够检验模型在复杂视觉理解场景中的能力。

在基础模型选择方面，研究人员采用 Qwen 系列多模态模型作为实验基础模型，包括 Qwen3-VL-2B-Instruct 和 Qwen2.5-VL-3B-Instruct 两种模型。这些模型在零样本视觉理解任务中表现良好，因此适合作为层级视觉识别研究的基础模型。

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

在训练方法方面，研究团队将强化学习微调方法与 TARA 表征对齐方法结合起来进行训练。首先采用 No-Thinking 强化学习微调策略。传统强化学习通常要求模型在生成答案前进行推理过程，但研究人员发现，在分类任务中不进行显式推理反而能够获得更好的效果，因此训练过程中采用提示语 Please directly output the answer。奖励函数的设计为，如果模型预测结果正确则奖励值为 1，如果预测结果不正确则奖励值为 0。

在此基础上，研究团队引入 TARA 表征对齐方法，通过两个对齐任务向模型注入分类学知识。第一部分为视觉表示对齐。具体步骤包括使用生物基础模型（BFM）提取图像特征，获取多模态模型中间层的视觉特征，将两者映射到同一特征空间，并利用余弦相似度进行对齐。

通过这一过程，模型能够学习符合生物分类结构的视觉表示空间。第二部分为标签表示对齐。具体过程为将分类标签输入 BFM 文本编码器获得标签嵌入，然后将多模态模型生成答案的 token 表征映射到同一空间，并进行相似度对齐。通过这种方式，模型能够学习不同层级标签之间的语义关系。

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

在训练过程中，研究团队采用交替训练策略，使模型在两种目标之间不断优化。一方面通过强化学习优化分类任务，另一方面通过 TARA 进行知识对齐，从而使模型逐渐吸收生物分类学知识并提升层级识别能力。

在评价指标方面，为了全面评估模型在层级视觉识别任务中的表现，研究人员设计了多种评价指标。其中 Hierarchical Consistent Accuracy（HCA）用于评估模型是否能够正确预测完整的分类路径，例如 Animal、Chordata、Aves、Passeriformes、Thraupidae、Dacnis，如果其中任意一层预测错误，则整条路径都视为预测错误。Leaf-level Accuracy（Accleaf）用于衡量最细粒度类别，也就是叶节点类别的预测准确率。

Point-Overlap Ratio（POR）用于统计预测路径中正确节点所占的比例。Strict Point-Overlap Ratio（S-POR）在此基础上要求预测节点必须是连续正确的节点才会计入得分。Top Overlap Ratio（TOR）则用于衡量相邻层级之间预测结果的一致性，通过这些指标可以全面评估模型在层级结构识别任务中的整体性能。

让视觉模型学会「推断未知」

整体来看，这项研究在理论和实际应用方面都具有较为重要的意义。首先，在解决多模态模型层级识别能力不足的问题方面，现有多模态模型虽然在细粒度识别任务中已经取得较好的效果，但在层级识别任务中仍然容易出现分类路径错误以及层级关系不一致等情况。

针对这一问题，研究团队提出的 TARA 方法通过引入分类学知识，使模型在识别过程中能够更好地保持不同层级之间的逻辑关系，从而显著提升模型在层级分类任务中的一致性表现。

其次，在提升模型对未知类别的泛化能力方面，研究人员指出在真实环境中新的物种仍在不断被发现，传统模型在缺乏训练样本的情况下往往难以进行准确识别。TARA 利用生物基础模型中蕴含的分类学知识，使模型能够推断未知类别之间的层级关系，并在缺乏训练样本的情况下仍然完成识别任务，这对于开放世界识别任务具有重要意义。

再次，在方法层面，研究提出了一种新的思路，即通过中间表征对齐的方式，将领域知识注入到多模态模型之中。研究团队认为，这种方法不仅可以应用于生物分类任务，还能够推广到其他具有层级结构的应用场景，例如医学影像分类、商品分类以及知识图谱推理等领域，从而为多模态大模型与领域知识结合提供了一种具有普适性的技术路径。

最后，在推动通用视觉理解系统发展方面，研究人员认为未来的视觉系统不仅需要具备识别具体对象的能力，还需要能够理解不同对象之间的结构关系。通过在模型训练过程中引入层级知识，多模态大模型可以逐步具备对结构化知识的理解能力，从而进一步发展成为能够理解复杂结构关系的视觉智能系统。

构建 TARA 的人

这篇论文的一作何胡凌霄，现为北京大学王选计算机研究所多媒体信息处理实验室博士生，师从彭宇新教授，主要研究方向为细粒度多模态大模型。

学术研究方面，他主要围绕细粒度视觉识别、多模态大模型等方向开展研究工作，在计算机视觉和多模态学习领域发表多篇论文，其中多篇被CVPR、ICLR、ICDE、BMVC、PRCV等国际学术会议接收，并参与相关领域的研究项目。

在学习期间，他还获得国家奖学金、北京理工大学优秀毕业生、北京理工大学优秀学生标兵等多项荣誉，并在全国大学生数学建模竞赛北京赛区获得一等奖，在华为云人工智能大赛无人车挑战杯中获得优胜奖等。

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

参考链接：http://39.108.48.32/mipl/news/news.php?id=CHhehulingxiao

论文的通讯作者彭宇新，北京大学王选计算机研究所教授、博士生导师，北京大学二级教授、博雅特聘教授，同时为IEEE、CCF、CAAI、CIE、CSIG Fellow，曾入选国家杰出青年科学基金获得者、国家万人计划以及科技部中青年科技创新领军人才等人才计划。

他于 2003 年毕业于北京大学信息科学技术学院计算机应用技术专业并获得博士学位，此后在北京大学开展教学与科研工作。其主要研究方向包括多媒体分析、计算机视觉和人工智能等领域。

彭宇新在相关领域取得了丰硕的学术成果，发表 TPAMI、IJCV、CVPR、NeurIPS、ICML 等国际重要期刊和会议论文 170 余篇，多次获得最佳论文奖，研究成果被国际同行评价为在无对象标注图像细分类等问题上取得重要进展。他提出了“弱监督深度图像细粒分类”等创新方法，并建立了跨媒体评测基准PKU XMediaNet，被全球多所高校和机构广泛使用。其团队在 NIST 组织的 TRECVID 视频检索国际评测中多次获得第一名，并在多项国际视觉竞赛中取得优异成绩。

此外，他主持承担国家 863 计划、国家自然科学基金重点项目等 40 余项科研项目，申请发明专利 50 余项并获得多项授权，相关成果已在国家网信办、公安部、国家广播电视总局以及多家互联网企业中得到应用。同时，他还积极参与学术组织和期刊工作，担任多个国际期刊编委和重要学术会议的组织者，在人工智能与计算机视觉领域具有重要影响力。

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026