0
就在昨天,阶跃星辰登顶了全球模型榜单——他们最新开源的 Agent 基座模型 Step 3.5 Flash,发布首日便登上全球模型平台OpenRouter 的 “最快模型榜”,而发布后仅用短短两天,就获得了OpenRouter“热度趋势榜”排名第一的好成绩,其数据是基于全球开发者与用户的实际模型调用量。也就是说,Step 3.5 Flash以硬实力赢得了用户的“用脚投票”。

(图为Step 3.5 Flash 登顶 OpenRouter 的Trending 榜单)
对阶跃来说,拿下榜单第一并不新鲜,而这个成绩有意思的地方在于,它点破了当前AI应用深化的一个普遍瓶颈:模型越来越“聪明”,能处理的任务越来越复杂,但用户和开发者在真实使用时,最直接的感官体验却是——“慢”。
这里的“慢”,不是指回答一句“你好”的速度,而是当用户任务变得复杂,任务链和工作流明显变长(比如分析整篇财报、编写复杂函数、或同时完成图文音视频多模态输出等等)时,AI的处理速度必然下降,用户的等待时间可能会被拖得很长。
漫长的等待——本身就严重限制了 AI 在实际工作流中的可用性;而如果等了半天,AI 拿出的结果还不能令人满意,用户的流失就已成定局。
而过去外界的一贯认知中,“快”=小参数模型的敏捷调用、输出;“慢”=更大参数量级的模型和细致的思考。此前,模型要的是“快”和“好”的平衡,而今天,阶跃的Step 3.5 Flash 却敢于对世界说:“我全都要!”
论速度,Step 3.5 Flash 有多快?
在复杂推理场景下,保证稳定性的同时,Step 3.5 Flash 在 NVDIA Hopper GPU 的最高推理速度可以达到每秒 350 个 Token,实现“点击即输出”的秒速体验。
榜单上,Step 3.5 Flash 以每秒 167 个 Token 的速度排名第九,但排在它前面的,多是在为专有硬件环境定制的模型和 8b-120b 规模不等的小型模型。

(图为 Step 3.5 Flash 在 OpenRouter 的 Fastest 榜位居前列)
而 Step 3.5 Flash 的参数量是 1960 亿,足以作为基座模型为 Agent 提供强劲的动力。

(Reddit平台用户评价:终于有东西能在我那只有120GB显存的破电脑上运行了)
跑分测试上,Step 3.5 Flash 一马当先,并且尤其擅长 Agent 场景和数学任务。在 τ²-Bench、BrowseComp 等测试,以及 LiveCodeBench V6 代码挑战和 AIME 2025 数学竞赛中,Step 3.5 Flash 都拿出了不错的成绩。

图注:Step 3.5 Flash 仅凭 11B 激活参数(总规模 196B MoE)便达到了顶尖级别的智能水平,足以媲美领先的闭源及开源模型(数据来源:阶跃星辰官方Tech Report)
实践上,Step 3.5 Flash 还在多步推理的结构化输出、复杂逻辑求解、后端自动化和长时间运行任务中,已经具备了企业级应用落地的能力。而针对高频工具调用和对行为可预测性有强要求的系统环境,Step 3.5 Flash 也能轻松驾驭。
“快”很容易,“强”也很容易。要理解 Step 3.5 Flash 为何能做到又快又强,首先要了解的,是它采用的“稀疏混合专家(MoE)架构”——这是一个在追求“超大模型”时代里,回归工程理性的设计。
传统的千亿参数大模型像一个“全能巨人”,处理任何问题,无论难易,都要动用全部脑力(激活所有参数)。
每一次都“全力出击”,这固然能保证能力,但计算成本极高的同时,也让推理缓慢、能耗巨大,算力的浪费也同样不可避免。
Step 3.5 Flash 的思路则不同。
作为一个总参数量1960亿的Agent 原生基座模型,它被精巧地组织成了许多个“专家小组”。当一个问题输入时,一个智能的路由机制会迅速判断:“这个问题主要由哪几个专家小组来处理最合适?”然后,只激活这些相关的“专家”——大约110亿参数——来工作。

(海外用户评价:它仅使用11b的活跃参数,所以运行速度极快。老实说,我对它毫无延迟的运行表现着迷。)
你可以把它想象成一个高度专业化的超级顾问团。接到一个金融分析任务,系统不会唤醒团里的医学专家或文学教授,而是精准地调度金融、数据分析、逻辑推理这几个小组来协同工作。
这种设计,既能让每次推理实际消耗的计算资源大幅减少,提升了计算速度,成本也随之下降;又能背靠“顾问团”1960 亿参数的“总知识库”,在需要处理复杂、跨界问题时,依然有能力调动不同领域的“专家”进行深度协作,让输出保质保量。
凭借着更聪明的调用,Step 3.5 Flash 采用的稀疏 MoE 架构,打破了“大模型”必须“力大砖飞”的固有印象,让 AI 的能力和速度,成为了可以兼得的“鱼与熊掌”。
光是有了更高效的架构还不够,Step 3.5 Flash 在具体工程实现上也做了不少优化,确保在真实场景中“跑”得流畅。
首先是处理长文本的“巧劲”。
人要学会快速浏览文本,就必须学会“一目十行”——AI 也一样,面对一个超长文本还要快速输出内容,就不能在生成新词时,每次都全文逐字阅读理解。这被称为“全注意力”机制,虽然输出效果更好,但 AI 的计算量会随着文本长度呈平方级增长,是导致处理长文本时速度剧降、延迟飙升的主要原因。
要一目十行,模型就必须采取滑动窗口注意力(Sliding-Window Attention, SWA)的机制。
所谓滑动窗口,是基于一个符合直觉的观察:在理解一个长句子或段落时,当前词的含义最受其“邻近”词汇的影响,而距离很远的词影响相对较小。在这种机制下,模型能更专注于一个窗口中临近词汇的内容,读的内容变少了,处理速度当然更快,成本也自然更低。
而 Step 3.5 Flash 则是博采众长,采用了 3:1 的滑动窗口与全局注意力混合架构(SWA + Full Attention),对 256K 上下文有着高效的处理能力。
不光“看”得快,Step 3.5 Flash 还“写”得快。
传统的模式,AI 生成 Token,要一个一个地“往外蹦”,在追求 AI 快交互的今天,这样的速度明显不够。
而 Step 3.5 Flash 采用了多 Token 预测(Multi-Token Prediction, MTP-3) 的技术,一次可以完成多个 Token 的预测,这相当于让 Token 的输出从“单车道”变成了“多车道”,直接让文本生成的吞吐效率翻了倍。
有了稀疏 MoE 架构,再整合了更先进的技术模式,给市场带来的震撼是直接的:AI在处理复杂、多步任务时的“迟滞感”正在被抹平。无论是代码生成、长文档分析还是需要多轮思考的规划任务,响应都变得更加即时和连贯。
Step 3.5 Flash 的出现,对于那些希望将 AI 深度集成到自动化工作流中的开发者而言,标志着一个实用的拐点——一个既聪明又敏捷的“AI 大脑”已经触手可及。
模型能力的升级,在今天似乎已经不是新鲜事——而 Step 3.5 Flash 的强势登场,却打破了过往的技术预设。
Step 3.5 Flash 所代表的,不仅仅是一个模型版本的迭代,更是一种技术路径的明确:通往更强大的人工智能的道路,不一定只靠无限制地堆叠参数,通过架构创新和工程优化,在效能与能力之间取得精妙平衡,同样是关键且务实的一步。
Step 3.5 Flash 登榜的胜利,不止是模型技术的胜利,更是模型工程的胜利,是阶跃星辰在追寻 AGI 的路上,迈出的坚实一步。
今天,Step 3.5 Flash 已在 OpenRouter、GitHub、阶跃 AI APP 和网页端等多端同步上线,面向开发者提供免费试用与快速部署支持。而同时,阶跃星辰也已启动了下一代 Step 4 的研发,并邀请全球开发者“深度参与共创”,让模型从工程中来,到工程中去,用最“落地”的方式做最“高级”的事情。
从 Step 3.5 Flash 开始,市场便能够看到一条通往 AGI 更清晰的路径——通过构建更快、更稳、更易获取的智能基座,降低每一个创新者构建高级AI应用的门槛。
当无数开发者可以基于这样的基座,在面对千行百业的具体问题时,都能创造出属于自己的智能体,并且以更便宜、更便捷的方式满足自己的实际需求,那时的我们距离AGI,或许可以又近了一点点。
雷峰网(公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。