全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

本文作者：小七

2025-09-26 16:57

专题：2025 Inclusion·外滩大会

导语：蚂蚁数科Agentar - SQL评测全球夺魁。

9月26日，据全球权威评测基准BIRD-Bech官网，蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T（美国电话电报公司）、谷歌云、腾讯云、阿里云等诸多国内外厂商，位居全球第一。这也是中国公司在该榜单上取得的最高成绩。

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准，要求AI大模型将自然语言查询转换为结构化查询语言（SQL），并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景，总量33GB，包含超过1万条高复杂度查询任务，是全球顶级AI团队展示技术实力的权威平台。

值得一提的是，蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜（81.67分）以及执行效率榜上（77分）上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍，Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建，旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO（组序列策略优化）强化学习训练方法，能够增强SQL内在推理，让大模型在推理阶段，深度思考SQL框架，避免潜在的逻辑错误，提升SQL逻辑准确性；此外，Agentar-SQL具备多轮反思修正的能力，让模型对生成的SQL进行多轮次的审视和修正，提升SQL语言的精准性；Agentar-SQL还通过独创的两阶段生成法，让大模型生成多个SQL候选，再对SQL进行两两PK的“锦标赛”，筛选出最优的SQL。

蚂蚁数科持续深耕AI大模型技术与应用，此前其自研的金融推理大模型Agentar-Fin-R1，在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌（TimesFM-V2.0）、亚马逊（Chronos-Large）等行业主流的通用时序模型。

0人收藏

专题

2025 Inclusion·外滩大会

本专题其他文章

小七

编辑

发私信

当月热门文章