昇腾「减负」、鲲鹏「铺路」：中国计算产业生态如何填平开发者的「踩坑」时代？

本文作者：杨依婷

2026-05-29 17:31

导语：鲲鹏昇腾生态，正在从“能用”进入“好用易用”的新阶段。

一个算力生态从“能用”到“好用易用”，中间隔着什么？

过去几年，国产AI算力行业长期存在一种割裂：硬件参数不断刷新，但是当开发者真正落地时，大量时间却依然消耗在环境配置、异构迁移、算子适配和反复踩坑上。

随着大模型训练进入千卡级协同、科学计算走向长周期稳定运行，这种割裂的代价被进一步放大了——开发效率本身，开始成为衡量算力平台竞争力的重要指标。

在最近的鲲鹏昇腾开发者圆桌上，一个很有意思的现象是，无论是做高性能计算的清华团队和中科大团队，还是做大模型预训练的AIGCode，他们谈论最多的，都不是芯片参数，而是开发效率。

有人提到，过去迁移异构平台往往需要几个月，现在一周就能完成；有人提到，过去大量时间被消耗在硬件适配、环境配置和反复踩坑上，现在终于能把精力重新放回算法本身；还有人提到，过去很多问题必须等待厂商排期解决，现在开发者自己就能在社区里找到方案，甚至直接参与生态共建。

这些变化看似零散，但背后其实指向同一件事：鲲鹏昇腾生态，正在从“能用”进入“好用易用”的新阶段。

衡量“好用易用”的标准，从来不是发布会上的参数表，而是开发者实际感知到的工程摩擦是否正在减小。也正是在这个意义上，这些开发者的体验，成为观察国产算力生态演进的一组关键样本。

当算法创新卡在工程的“坑”里

过去几年，AI行业出现了一个越来越明显的变化：模型迭代越来越快，决定落地速度的关键，正从算法转向算力基础设施的工程能力。尤其在高性能计算领域，这种变化被进一步放大。

清华大学地球系统模拟团队对此深有体会。

他们所做的工作，是用AI替代传统大气模拟中的经验估算环节，把全球大气模拟分辨率推进至公里级，让极端天气的模拟精度真正逼近实用价值。

这个方向的科学价值毋庸置疑，但问题在于：当分辨率提升一个量级之后，背后对应的计算复杂度，往往会呈指数级增长。

大气模拟本质上是一个超长时间连续积分过程，一次完整计算往往持续数天甚至更久，中间任何一次软硬件异常，都可能导致整个任务重来。相比互联网业务里常见的“失败重试”，科学计算更像是在一根极长的钢丝上行走——很多任务没有“回滚重开”的余地。

更复杂的问题来自精度。

一个气候结果的背后，可能是数亿次浮点运算的累计结果。单次误差或许微不足道，但经过长时间迭代之后，误差会像滚雪球一样被不断放大。

这也是为什么高性能计算领域始终强调混合精度、数值稳定性、通信一致性。

但相比计算本身，更隐蔽的消耗，其实来自工程生态的不成熟

过去很长一段时间里，国内算力生态整体仍处于早期阶段，硬件迭代速度远快于软件生态成熟速度。很多平台虽然已经能用，但开发工具链、编译器、异构调度、通信框架以及社区经验仍不完善，科研团队很难从一开始就完成系统级优化。

于是，大量团队只能先让程序“跑起来”，再进入漫长的适配和调优阶段。

这意味着，科学研发与工程优化长期处于割裂状态：先解决科学问题，再回头填工程的坑。

代价是巨大的：团队大量精力被消耗在底层环境适配与反复踩坑上，真正的算法创新却始终处于一种“排队等待”的状态。

鲲鹏如何将开发者从“填坑”里解放出来

"鲲鹏让科研者的精力回到科研本身，不用在硬件适配上反复踩坑。"这是清华团队王一鸣对鲲鹏最直接的评价。

这句话背后，其实对应着一种开发理念的转变：团队不再遵循“先解决科学问题，再做性能优化”的传统模式，而是在代码设计阶段就开始将硬件特性、并行方式一并纳入考量——科学研发与工程优化，从“前后接力”变成了“并行推进”。

理念转变的前提，是平台本身能把“坑”填平。

过去很长时间里，高性能计算平台最大的难点之一，就是软件生态的碎片化。很多科研团队迁移代码时，耗时往往不在算法，而在底层依赖适配：编译链重配、通信库重装、指令集兼容、框架重写，一层套一层。

而鲲鹏做了一件很关键的事情——尽可能保持开发环境的连续性。

王一鸣表示，很多主流气象软件和依赖库在鲲鹏平台上的兼容度已经很高，“加载几个库基本就能跑”，大量代码不需要大规模重构，就能完成初步迁移。

这种差异，在中科大团队身上体现得更加明显。

研究员陈俊仕提到，过去迁移到异构平台，周期往往以月为单位，迁移完成后还要重新做性能优化，但迁移到鲲鹏平台，一周左右就能完成。

迁移效率差异的背后，本质上是开发复杂度的差异。

目前主流高性能计算系统采用CPU+GPU异构模式，多套指令集并存，开发者往往需要不断处理CPU与加速器之间的数据搬运与协同问题。很多时候，一个原本只占较少耗时的CPU函数，在应用迁移到GPU后，可能会迅速成为新的性能瓶颈，开发者不得不反复重构并行逻辑。

而鲲鹏选择了尽可能降低这种异构复杂性，将更多性能释放建立在通用计算架构之上。对于开发者而言，变化最直接的一点是：大量原有代码无需重写就能直接运行，工作的重心开始从“搬运代码”重新回到“性能调优”。

这种变化，最终转化为了更实际的性能收益。

陈俊仕提到，通过构造更大的矩阵块，并结合NUMA（非同一内存访问）感知的内存分配策略，团队的新算法相比传统方法实现平均40多倍加速，部分场景接近200倍。

而对于气象科学这类高精度、长周期计算场景，这种“少踩坑”的意义更加明显。

清华团队迁移到鲲鹏后，最直观的感受之一，就是大规模长周期作业的稳定性显著提升，断点续跑机制也更加成熟。

此外，鲲鹏还提供了适配主流气象开发语言的编译器、数学库和性能调优工具，让团队能够在一个体系完整、反馈高效的平台上快速调试参数、验证模型。当底层计算的可靠性有了保障，研究人员就不再需要反复排查计算误差的来源，而是能够把更多精力重新放回模型本身。

社区的成熟度也在同步降低这种开发的阻力。在鲲鹏生态中，大部分常见问题都能从社区资料中找到可复用的经验；更复杂的问题，社区工程师的响应速度也足够快，开发者终于不用再长期陷在底层工程细节里。

当开发者不再被硬件适配消耗，性能优化的重心，也开始重新回到算法创新本身。

不过，鲲鹏在做的事情，并不只是解决"当下"的问题。

当AI基础设施的战场从"模型训练"向"Agent规模化落地"迁移，Token与内存消耗、沙箱启动速度、多Agent协同时的数据安全正在成为Agent进入产业场景之前的新一道"基础设施门槛"。

鲲鹏超节点架构的设计，恰好为这一趋势提供了系统级支持。基于灵衢互联，超节点通过大带宽、低时延把分散的服务器集群组织成统一协同的计算系统——Token开销可降低约50%，沙箱百毫秒级启动，基于CCA架构的机密计算则补上安全侧的短板。开发者不需要切换一套工具链，就能从大模型训练直接走到Agent部署。

昇腾正在把“堆卡”变成系统工程

如果说鲲鹏解决的是“让开发者少被迁移与适配消耗”，那么昇腾面对的，则是另一个更复杂的问题：当大模型训练进入千卡级协同之后，算力竞争开始从“有没有卡”，转向“能不能把卡真正跑满”。

2024年初，AIGCode团队的陈秋武在昇腾上一代产品上做大模型预训练时，整个CANN生态在他眼中还是一片“荒漠”——算子覆盖率低，自研网络结构的适配需要排期三到四个月，团队不得不投入大量精力去填补生态的空白。

但这种变化的速度，比他们预想得更快。

大约8个月后，CANN生态覆盖率已经从不足三成跃升至80%到90%，“这个迭代速度让我非常惊讶”，陈秋武直言。

再到现在，问题已经变成“第一可解，第二不用排期，自己技术范围内就能解决”。他给出了一个形象的比喻：“2024年初是婴儿期，现在有点像青年期。”

如今，AIGCode团队已经在昇腾平台完成了MoE模型预训练优化，算力利用率达到65%，接近行业平均水平的两倍。

用陈秋武的话说，“一张卡可以当两张卡用”。

而65%这个数字，是用系统工程优化换来的，而非堆卡堆出来的。

陈秋武拆解了这背后的路径：核心在于通信与计算的协同调度。依托昇腾超节点架构，团队能够将千卡级集群的通信与计算指令做到精细的并行掩盖，最大限度压缩芯片空闲窗口；同时为实现装满瓶子，先遵循“大的块MHA先装到瓶子里，再用小的块GDN填满”的方法，结合in_proj、激活函数等小算子做融合，最后QKV重组零拷贝。进一步提升计算资源利用率。

而这背后，对应的正是CANN生态工程能力的快速成熟：预置1500余个基础算子与100余个融合算子，提供Ascend C、PyPTO等多种算子编程范式，并兼容Triton、TileLang等业界主流编程框架，深度对接90余家主流开源社区，实现70余款国内外主流大模型发布即适配；同时生态加大对开发者激励的投入，设立2000万生态创新激励基金，扶持算子、加速库等领域创新探索，投放10000卡算力资源，保障开源社区开发者的算力需求，从工具、算力到资金，共同构成了一条从“可用”走向“好用易用”的演进路径。

对此，圆桌主持人石侃表示："CANN并不只是一个冷冰冰的组件，而是已经成为了连接极致硬件和开发者无穷创造力的纽带和桥梁。"向上兼容主流计算框架、向下屏蔽硬件复杂度，让开发者用自己最熟悉的方式跑出最极致的性能——这正是CANN迭代至今最核心的设计哲学。

更重要的是，当这些技术能力开始转化为开发者可感知的体验时，一个更深层的变化开始出现：开发者不再只是生态的“使用者”，而是开始成为“共建者”。

昇腾「减负」、鲲鹏「铺路」：中国计算产业生态如何填平开发者的「踩坑」时代？