您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
芯片 正文
发私信给杨依婷
发送

0

昇腾「减负」、鲲鹏「铺路」:中国计算产业生态如何填平开发者的「踩坑」时代?

本文作者: 杨依婷   2026-05-29 17:31
导语:鲲鹏昇腾生态,正在从“能用”进入“好用易用”的新阶段。

一个算力生态从“能用”到“好用易用”,中间隔着什么?

过去几年,国产AI算力行业长期存在一种割裂:硬件参数不断刷新,但是当开发者真正落地时,大量时间却依然消耗在环境配置、异构迁移、算子适配和反复踩坑上。

随着大模型训练进入千卡级协同、科学计算走向长周期稳定运行,这种割裂的代价被进一步放大了——开发效率本身,开始成为衡量算力平台竞争力的重要指标。

在最近的鲲鹏昇腾开发者圆桌上,一个很有意思的现象是,无论是做高性能计算的清华团队和中科大团队,还是做大模型预训练的AIGCode,他们谈论最多的,都不是芯片参数,而是开发效率。

有人提到,过去迁移异构平台往往需要几个月,现在一周就能完成;有人提到,过去大量时间被消耗在硬件适配、环境配置和反复踩坑上,现在终于能把精力重新放回算法本身;还有人提到,过去很多问题必须等待厂商排期解决,现在开发者自己就能在社区里找到方案,甚至直接参与生态共建。

这些变化看似零散,但背后其实指向同一件事:鲲鹏昇腾生态,正在从“能用”进入“好用易用”的新阶段。

衡量“好用易用”的标准,从来不是发布会上的参数表,而是开发者实际感知到的工程摩擦是否正在减小。也正是在这个意义上,这些开发者的体验,成为观察国产算力生态演进的一组关键样本。

当算法创新卡在工程的“坑”里

过去几年,AI行业出现了一个越来越明显的变化:模型迭代越来越快,决定落地速度的关键,正从算法转向算力基础设施的工程能力。尤其在高性能计算领域,这种变化被进一步放大。

清华大学地球系统模拟团队对此深有体会。

他们所做的工作,是用AI替代传统大气模拟中的经验估算环节,把全球大气模拟分辨率推进至公里级,让极端天气的模拟精度真正逼近实用价值。

这个方向的科学价值毋庸置疑,但问题在于:当分辨率提升一个量级之后,背后对应的计算复杂度,往往会呈指数级增长。

大气模拟本质上是一个超长时间连续积分过程,一次完整计算往往持续数天甚至更久,中间任何一次软硬件异常,都可能导致整个任务重来。相比互联网业务里常见的“失败重试”,科学计算更像是在一根极长的钢丝上行走——很多任务没有“回滚重开”的余地。

更复杂的问题来自精度。

一个气候结果的背后,可能是数亿次浮点运算的累计结果。单次误差或许微不足道,但经过长时间迭代之后,误差会像滚雪球一样被不断放大。

这也是为什么高性能计算领域始终强调混合精度、数值稳定性、通信一致性。

但相比计算本身,更隐蔽的消耗,其实来自工程生态的不成熟

过去很长一段时间里,国内算力生态整体仍处于早期阶段,硬件迭代速度远快于软件生态成熟速度。很多平台虽然已经能用,但开发工具链、编译器、异构调度、通信框架以及社区经验仍不完善,科研团队很难从一开始就完成系统级优化。

于是,大量团队只能先让程序“跑起来”,再进入漫长的适配和调优阶段。

这意味着,科学研发与工程优化长期处于割裂状态:先解决科学问题,再回头填工程的坑。

代价是巨大的:团队大量精力被消耗在底层环境适配与反复踩坑上,真正的算法创新却始终处于一种“排队等待”的状态。

鲲鹏如何将开发者从“填坑”里解放出来

"鲲鹏让科研者的精力回到科研本身,不用在硬件适配上反复踩坑。"这是清华团队王一鸣对鲲鹏最直接的评价。

这句话背后,其实对应着一种开发理念的转变:团队不再遵循“先解决科学问题,再做性能优化”的传统模式,而是在代码设计阶段就开始将硬件特性、并行方式一并纳入考量——科学研发与工程优化,从“前后接力”变成了“并行推进”。

理念转变的前提,是平台本身能把“坑”填平。

过去很长时间里,高性能计算平台最大的难点之一,就是软件生态的碎片化。很多科研团队迁移代码时,耗时往往不在算法,而在底层依赖适配:编译链重配、通信库重装、指令集兼容、框架重写,一层套一层。

而鲲鹏做了一件很关键的事情——尽可能保持开发环境的连续性。

王一鸣表示,很多主流气象软件和依赖库在鲲鹏平台上的兼容度已经很高,“加载几个库基本就能跑”,大量代码不需要大规模重构,就能完成初步迁移。

这种差异,在中科大团队身上体现得更加明显。

研究员陈俊仕提到,过去迁移到异构平台,周期往往以月为单位,迁移完成后还要重新做性能优化,但迁移到鲲鹏平台,一周左右就能完成。

迁移效率差异的背后,本质上是开发复杂度的差异。

目前主流高性能计算系统采用CPU+GPU异构模式,多套指令集并存,开发者往往需要不断处理CPU与加速器之间的数据搬运与协同问题。很多时候,一个原本只占较少耗时的CPU函数,在应用迁移到GPU后,可能会迅速成为新的性能瓶颈,开发者不得不反复重构并行逻辑。

而鲲鹏选择了尽可能降低这种异构复杂性,将更多性能释放建立在通用计算架构之上。对于开发者而言,变化最直接的一点是:大量原有代码无需重写就能直接运行,工作的重心开始从“搬运代码”重新回到“性能调优”。

这种变化,最终转化为了更实际的性能收益。

陈俊仕提到,通过构造更大的矩阵块,并结合NUMA(非同一内存访问)感知的内存分配策略,团队的新算法相比传统方法实现平均40多倍加速,部分场景接近200倍。

而对于气象科学这类高精度、长周期计算场景,这种“少踩坑”的意义更加明显。

清华团队迁移到鲲鹏后,最直观的感受之一,就是大规模长周期作业的稳定性显著提升,断点续跑机制也更加成熟。

此外,鲲鹏还提供了适配主流气象开发语言的编译器、数学库和性能调优工具,让团队能够在一个体系完整、反馈高效的平台上快速调试参数、验证模型。当底层计算的可靠性有了保障,研究人员就不再需要反复排查计算误差的来源,而是能够把更多精力重新放回模型本身。

社区的成熟度也在同步降低这种开发的阻力。在鲲鹏生态中,大部分常见问题都能从社区资料中找到可复用的经验;更复杂的问题,社区工程师的响应速度也足够快,开发者终于不用再长期陷在底层工程细节里。

当开发者不再被硬件适配消耗,性能优化的重心,也开始重新回到算法创新本身。

不过,鲲鹏在做的事情,并不只是解决"当下"的问题。

当AI基础设施的战场从"模型训练"向"Agent规模化落地"迁移,Token与内存消耗、沙箱启动速度、多Agent协同时的数据安全正在成为Agent进入产业场景之前的新一道"基础设施门槛"。

鲲鹏超节点架构的设计,恰好为这一趋势提供了系统级支持。基于灵衢互联,超节点通过大带宽、低时延把分散的服务器集群组织成统一协同的计算系统——Token开销可降低约50%,沙箱百毫秒级启动,基于CCA架构的机密计算则补上安全侧的短板。开发者不需要切换一套工具链,就能从大模型训练直接走到Agent部署。

昇腾正在把“堆卡”变成系统工程

如果说鲲鹏解决的是“让开发者少被迁移与适配消耗”,那么昇腾面对的,则是另一个更复杂的问题:当大模型训练进入千卡级协同之后,算力竞争开始从“有没有卡”,转向“能不能把卡真正跑满”。

2024年初,AIGCode团队的陈秋武在昇腾上一代产品上做大模型预训练时,整个CANN生态在他眼中还是一片“荒漠”——算子覆盖率低,自研网络结构的适配需要排期三到四个月,团队不得不投入大量精力去填补生态的空白。

但这种变化的速度,比他们预想得更快。

大约8个月后,CANN生态覆盖率已经从不足三成跃升至80%到90%,“这个迭代速度让我非常惊讶”,陈秋武直言。

再到现在,问题已经变成“第一可解,第二不用排期,自己技术范围内就能解决”。他给出了一个形象的比喻:“2024年初是婴儿期,现在有点像青年期。”

如今,AIGCode团队已经在昇腾平台完成了MoE模型预训练优化,算力利用率达到65%,接近行业平均水平的两倍。

用陈秋武的话说,“一张卡可以当两张卡用”。

而65%这个数字,是用系统工程优化换来的,而非堆卡堆出来的。

陈秋武拆解了这背后的路径:核心在于通信与计算的协同调度。依托昇腾超节点架构,团队能够将千卡级集群的通信与计算指令做到精细的并行掩盖,最大限度压缩芯片空闲窗口;同时为实现装满瓶子,先遵循“大的块MHA先装到瓶子里,再用小的块GDN填满”的方法,结合in_proj、激活函数等小算子做融合,最后QKV重组零拷贝。进一步提升计算资源利用率。

而这背后,对应的正是CANN生态工程能力的快速成熟:预置1500余个基础算子与100余个融合算子,提供Ascend C、PyPTO等多种算子编程范式,并兼容Triton、TileLang等业界主流编程框架,深度对接90余家主流开源社区,实现70余款国内外主流大模型发布即适配;同时生态加大对开发者激励的投入,设立2000万生态创新激励基金,扶持算子、加速库等领域创新探索,投放10000卡算力资源,保障开源社区开发者的算力需求,从工具、算力到资金,共同构成了一条从“可用”走向“好用易用”的演进路径。

对此,圆桌主持人石侃表示:"CANN并不只是一个冷冰冰的组件,而是已经成为了连接极致硬件和开发者无穷创造力的纽带和桥梁。"向上兼容主流计算框架、向下屏蔽硬件复杂度,让开发者用自己最熟悉的方式跑出最极致的性能——这正是CANN迭代至今最核心的设计哲学。

更重要的是,当这些技术能力开始转化为开发者可感知的体验时,一个更深层的变化开始出现:开发者不再只是生态的“使用者”,而是开始成为“共建者”。

昇腾「减负」、鲲鹏「铺路」:中国计算产业生态如何填平开发者的「踩坑」时代? 

从“用”到“建”:国产算力走向自我驱动

当开发者开始往生态里写代码,而不仅仅是跑代码时,事情就变了。

清华大学、AIGCode、中科大——这些团队不再只是跑模型、调参数,而是开始往生态里写代码、填坑、修路。

清华团队将基于鲲鹏平台的项目经验沉淀为行业参考,为鲲鹏社区贡献了气象科学计算领域的最佳实践;AIGCode则持续推进国产算力与自研模型之间的深度协同,希望打通从底层算力到模型训练的完整链路。

要知道,气象模拟与高性能科学计算,向来是算力平台能力的压力测试场——长周期、高精度、对稳定性几乎零容忍,在对芯片的要求上,处于金字塔最靠近塔尖的位置。

这类团队的选择,历来不看发布会,只看能不能在最苛刻的场景下稳定交付。他们现在不仅"用",还开始往生态里"建",本身就是一种比任何评测数据都更有分量的背书。

而这,也正是一个生态开始自我驱动的标志。

截至目前,鲲鹏开发者已超过415万,合作伙伴超过7000家,解决方案认证超过27000个;昇腾开发者超过410万,合作伙伴超过3000家,解决方案认证超过6700个。这些数字背后,是无数个"清华团队"、"中科大团队"和"AIGCode"们每一次工程经验、优化能力与代码资产的持续沉淀。

衡量生态是否真正繁荣的标准,不只是开发者数量够不够多,更重要的是,是否有越来越多开发者愿意把自己的工程经验、优化能力与代码资产持续沉淀进生态之中。

当生态的飞轮真正转动起来,开发者的每一次共建都在反哺生态,降低后来者的门槛,鲲鹏、昇腾的计算产业生态也随之繁荣起来。

在圆桌接近尾声时,有人提了一个问题:如何用一句话概括你们选择国产算力平台的理由?

几位开发者给出了各自不同的答案,但有一种共同的底色:不是没有选择,而是用过之后发现值得选。

一个算力生态真正走向成熟,或许不会在某一次发布会上被宣告,而是悄悄发生在开发者决定下次还选它的那一刻。

当越来越多的清华、中科大、AIGCode们把自己的代码、经验和判断押注在同一套生态之上,这场从"能用"到"好用易用"的转变,或许就已经越过了最难的那段坡。

雷峰网雷峰网(公众号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说