0
| 本文作者: 刘伊伦 | 2026-03-30 10:46 |
当AI产业从模型能力竞争逐步转向规模化应用竞争,围绕“Token推理效率”进行系统性优化成为行业的核心命题。
“随着智能体、AI Coding等应用的爆发式增长,Token消耗量呈百倍、千倍级跃升,2026年已成为名副其实的‘Token爆发元年’。AI产业的核心关注焦点,正从模型参数规模、模型可用性全面转向稳定、低成本、高质量交付的Token产能。”郑纬民院士表示。

但与此同时,国内算力利用率正深陷结构性困境。
首先,资源配比严重失衡,Token生成过度绑定GPU,高端内存、集群SSD、IB互联等昂贵闲置资源利用率不足10%,整机综合利用率不及20%,造成巨额智算成本空耗。
软硬协同样存在短板,硬件算力持续迭代,但软件优化与分布式并行组合稳定性不足,超80%理论算力被浪费,粗放调度又隐形损耗超50%算力。
面对大量行业痛点,雷峰网(公众号:雷峰网)获悉,3月27日2026中关村论坛期间,趋境科技发布全新一代AI推理平台——趋境ATaaS高效能AI Token生产服务平台(Approaching.AI Token as a Service),为破解算力投入与Token产出失衡难题提供了系统性解决方案。
这一产品落地,也折射出AI基础设施产业的演进趋势:行业竞争不再单纯比拼算力规模,而是转向综合衡量Token生产核心指标,涵盖首包响应时延(TTFT)、Token吞吐效率(TPS)与全域资源利用率等关键维度。
那么,趋境ATaaS通过哪些底层技术优化,破解行业算力利用的结构性矛盾?又将如何通过生态共建,系统性打通产业割裂痛点?
万亿Token稳态产出、GPU开销直降 90%,TaaS平台重构智算底座
过去两年,行业焦点高度集中在基础模型竞赛:各家疯狂堆叠参数、冲刺榜单、追逐SOTA性能,模型厂商一度成为资本追捧的热点。
但随着产业主线从大模型训练转向规模化落地应用,深层供需失衡开始显性暴露:个人重度使用“小龙虾”等AI智能体单日Token成本可达千元,服务供给端却深陷亏损经营,大量智算资源长期低效空转、得不到合理利用。
TaaS成为调和产业矛盾、重构Token生产效率的核心解法,为行业打通降本、提效、提质的关键通路。
对此,郑纬民院士锚定产业趋势,明确了TaaS落地演进的三大核心技术底座:一是全系统异构协同,通过将不同计算任务合理分配至GPU、CPU、内存和SSD,打破算力瓶颈;二是存算协同实现“以存换算”,通过前置KV Cache等技术,大幅降低重复计算量,提升推理效率;三是面向SLO的智能调度,精准地将用户业务需求“翻译”为底层资源决策。
立足这套底层技术逻辑,趋境ATaaS平台以极致高效能Token生产为核心锚点,可承载万级并发AI推理业务,支撑集群实现日均万亿级稳态Token产出落地。

作为全球首创的大模型计算逻辑重构技术,异构推理2.0技术“六合”深度融合CPU与GPU、国产及非国产异构算力,实现任务智能分流,能将万卡级智算集群运营成本压降20%以上。
以存换算2.0“月饼”,凭借超体量KV Cache缓存技术,将存储空间拓展百倍至千倍,最高实现90%缓存命中率,直接削减90%的GPU算力开销。
“双仪”虚实同构技术,依托算子级SLO仿真能力,完成算力资源智能预规划与动态调优,精准切分异构算力,让万卡级集群硬件综合利用率实现数倍提升。
“万象”极致弹性技术,则打通了规模化量产的最后一道壁垒,支持万亿参数大模型7秒极速拉起、动态配置变更,以及数百节点超大规模EP弹性调度,为万卡级集群高性能横向扩展筑牢根基。
趋境ATaaS平台的发布为AI基础设施的建设和运营提供了新的思路和行业标准,使每单位算力和能耗投入都能够数倍转化为更稳定、更可衡量的Token价值产出,更标志着AI基础设施发展焦点从单纯的算力规模竞争,转向对Token生产效率的综合衡量,推动算力基础设施从“数据中心”向“Token工厂”全面演进。

集群性能翻倍背后:TaaS生态协同「重写」Token经济学
面对国产推理基础设施“可用”与“好用”之间的鸿沟,技术优化之外,生态协同的紧迫性正在凸显。
从底层硬件厂商,到模型厂商,再到最贴近终端用户的云服务平台,趋境ATaaS平台正逐步嵌入产业链的每一个关键环节,以生态协同模式发挥聚合效应,推动国产AI推理基础设施的发展。
华为昇腾计算业务副总裁、首席产品规划师叶耀荣表示,趋境与昇腾展开了全方位的技术和商业化合作,部分项目中在昇腾AI集群上实现了2倍以上性能提升。
九源智能计算系统生态联合体副秘书长王豪杰表示,Token时代竞争转向单位成本产出,国产卡面临“生态驱动”困局。九源联合体打造国产智能计算生态,全国产化方案适配多款GPU、串行代码高效并行的九源领域编程语言“九齿”、支撑Mooncake推理加速系统、基于国产芯片的高效智能体,并与KTransformers等框架深度联动。
云上算力服务的深度融合同样是破局关键。
并行科技董事长陈健表示,并行MaaS服务得到趋境科技的大力支持,双方合作将高质量Token的生产成本大幅优化,并将特定场景下的集群性能提升50%,共同为智谱、Kimi、MiniMax、DeepSeek等头部大模型客户提供优质服务。
京东云同样与趋境科技达成合作,双方联合打造推理引擎,推动Mooncake开源生态发展。

基于一系列产业实践,行业各方进一步沉淀形成三大共识。
首先,软硬深度协同是释放国产算力潜能的关键,需通过系统级优化弥合硬件性能与业务需求之间的鸿沟。
生态统一与标准建设同样至关重要,打破“百花齐放”带来的适配难题,才能实现规模化应用。
最后,人才培养是产业根基,需通过开源社区、技术竞赛等方式,培育兼具理论与工程能力的AI Infra人才。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。