0
| 本文作者: 包永刚 | 2026-06-01 18:20 |
过去两年,AI基础设施行业有一个几乎无人质疑的共识:GPU决定AI的上限。
从大模型训练到推理部署,产业的关注点几乎都围绕着GPU展开。显存够不够大、带宽够不够高、Token吞吐量能达到多少,成为衡量AI基础设施能力的核心指标。
但Agent的出现,正在改变这套逻辑。
与传统聊天机器人不同,Agent并不只是完成一次问答,而是需要持续执行任务。它需要调用工具、访问数据库、浏览网页、管理记忆系统,甚至不断创建和调度新的子Agent协同完成工作。
当AI开始从生成答案转向执行任务,一个长期被GPU光环掩盖的角色重新回到了舞台中央——CPU。
Computex 2026台北国际电脑展期间,英特尔发布了首款基于Intel 18A工艺打造的数据中心处理器——至强6+(代号Clearwater Forest)。这款处理器拥有288个能效核(E-Core),还拥有一个非常吸引人的特性,在实际测试中,一颗288核至强6+可以轻松同时部署400至500个Agent。

这背后折射出的,并不仅仅是一颗新CPU的发布,而是Agent时代AI基础设施底层逻辑的一次深刻变化。
一颗CPU能同时运行500个Agent的关键是什么?
如果说ChatGPT时代的AI更像一个超级搜索框,那么Agent时代的AI更像一个数字员工。
一个典型Agent任务往往包含多个环节:用户提出需求,Agent拆解任务,调用多个工具,查询知识库,启动多个子Agent协同处理,最终汇总结果并返回。整个过程中,真正负责生成内容的依然是GPU,但大量调度、编排、路由、资源管理以及任务协调工作,则落在了CPU身上。
英特尔数据中心集团技术产品总监杨锦文表示:"随着生成式AI带来的发展,CPU和GPU的配比正在从传统的1:8逐渐变成1:4、1:2,甚至1:1的场景,在部分强化学习场景中甚至出现了反转。"

1:1,甚至CPU比GPU更多——这个比例放在三年前几乎不可想象。而这,恰恰是至强6+发布的背景。

对于Agent来说,CPU面临两个全新的挑战。
第一个挑战是密度。企业希望在同样的机架空间内运行更多Agent,随着Agent数量增加,CPU需要同时管理大量任务调度和资源分配。
第二个挑战是响应速度。Agent运行过程中会频繁创建、启动和销毁任务实例,如果启动速度过慢,即便拥有足够算力,也难以满足实际业务需求。
英特尔SoC架构专家曾义说,"要满足Agent频繁创建、启动和销毁任务实例的特性,希望在同一颗CPU上部署更高密度的工作负载。这也是为什么至强6+是首款单SoC支持288个核的架构,这能够帮助我们以非常好的TCO(总体拥有成本)去满足Agent上的需求。"
为了实现这种密度,英特尔在至强6+上采用了英特尔Foveros Direct 3D的三维封装技术。

具体而言,是将基于Intel 18A工艺制造的计算Tile,垂直堆叠在基于Intel 3工艺的底层Tile之上,再通过EMIB封装技术完成各模块之间的互联。整颗处理器由4个基于18A工艺的计算芯片构成,每个芯片包含24个核心,堆叠在3颗基底芯片上方,基底芯片则集成了片上网状互联架构、末级缓存和内存子系统——一共29个芯片组件,才构成了这颗288核的处理器。
内存规格同样针对Agent以及传统负载的需求进行了强化:12通道DDR5,运行速率最高8000 MT/s,末级缓存高达576MB,比上一代产品提升超过5倍。96条PCIe Gen 5通道则保证了跨设备的数据流动不会成为瓶颈。
清楚至强6+的特性后,再来看至强6+能够用1颗芯片运行数百个Agent的原因。杨锦文说,具体能运行多少个Agent,取决于具体的配置。云服务中常见配置,通常是"2个核心配4G内存"或"1个核心配2G内存"。按照这个标准,288核架构下同时部署400至500个Agent"已经是很常规的操作"。
他也补充:"上限取决于客户自身的诉求,以及要在什么样的SLA(服务等级协议)的服务协议下提供Agent服务。"
换句话说,Agent时代对CPU的新要求,不再只是跑得快,而是能同时管理更多任务。

在性能提升方面,至强6+对比上一代产品整体性能最高提升2.26倍,每瓦性能最高提升1.55倍。与同类竞争产品相比,每线程性能和每线程每瓦性能均高出最多30%,后者是虚拟化数据中心工作负载最核心的评估维度。

对于使用第二代至强的客户,升级至强6+的理由更加直接,服务器整合比可以达到9:1,物理空间减少近80%,能源节省73%。德意志电信旗下的T-Systems已将至强6+定位为其T-Cloud私有智能体AI基础设施的关键组件,理由正是海量内核数量与出色的能效。

Agent时代,网络成为瓶颈
过去几年,AI产业形成了一种惯性思维:GPU决定一切。
但Agent正在让行业意识到一个新的现实——系统能力开始比单芯片能力更重要。
一个Agent完成任务的完整流程是:CPU负责调度,GPU负责推理,网络负责数据交换,内存负责上下文保存,软件负责资源编排。任何一个环节出现瓶颈,都会影响最终的体验。
英特尔执行副总裁兼数据中心事业部总经理Kevork Kechichian指出:"AI的扩展之道,不在于各部件的叠加,而在于系统的协同运作。随着AI走向智能体时代,编排、并发与数据流动成为了新的限制因素。"
这也是为什么英特尔在发布至强6+的同时,还发布了全新的以太网E835控制器及网络适配器。因为当数百个Agent同时工作时,网络已经成为影响效率的重要因素。
长期以来,网卡在AI基础设施中的存在感并不高。
但当Agent开始频繁调用外部工具和服务,节点之间的东西向流量迅速增长,网络的重要性开始上升。英特尔技术专家Kevin Cai告诉雷峰网:"AI的发展正在对网络带宽、时延以及能效提出全新要求,网络已经成为现代AI基础设施中的关键组成部分。"

E835支持最高200GbE吞吐量,覆盖2×25GbE、4×25GbE、2×100GbE、1×200GbE等多种端口配置,可通过英特尔以太网端口配置工具(EPCT)灵活定制。完成首次验证后,仅需两步即可重新配置端口数量和速率。RDMA(RoCEv2/iWARP)支持可绕过CPU直接在服务器之间传输数据,动态设备个性化(DDP)技术则进一步降低了数据包处理开销。
E835真正的差异化在功耗上。英特尔给出的数据是,在满载200G线速运行时,E835的功耗比同类主要竞争对手低28%至47%,最终实现1.4至1.9倍的每瓦性能优势。对于正在把越来越多算力集中进机架的数据中心来说,同样的散热和供电预算意味着可以部署更高密度的网络。

在电信场景中,E835还有一个容易被忽略的细节,配合至强6+的高精度时钟提取功能,可以在5G专网中以约10纳秒的精度实现时钟同步,这个能力过去需要专门的昂贵设备才能实现。爱立信在实际运营商部署中测试至强6+的数据也已印证,在相同核心数下,性能提升30%,每瓦性能提升60%以上,机架功耗下降38%。
E835还提供超过10年的产品生命周期,这对需要长期稳定运营的电信和企业客户来说,是降低长期TCO的重要保障。
为Agent而生的480GB显存GPU
如果说至强6+解决的是Agent的调度问题,那么英特尔下一代数据中心GPU——代号Crescent Island,则瞄准了另一个瓶颈:内存。
在Agent时代,内存正在变成核心竞争力。因为Agent不仅需要推理,还需要长期记忆、上下文保存、多模型协同以及频繁切换不同任务。越来越长的上下文窗口以及不断增长的KV Cache需求,使得显存容量的重要性迅速提升。
Crescent Island基于Xe 3P架构,最大的差异化不是算力,而是高达480GB的超大内存容量。英特尔选择了LPDDR5x显存方案,相比HBM功耗更低,成本更具竞争力,同时将整卡功耗控制在350W,可直接部署在现有风冷数据中心中,无需液冷改造。
Crescent Island是为Agentic AI而生。
480GB意味着什么?杨锦文解释,以DeepSeek-V4模型的参数量为例,在FP8量化精度下,仅需4张Crescent Island就可以支持这个模型的完整部署。更大的内存容量还意味着可以同时在显存中保留多个模型,Agent在不同任务之间切换时无需频繁加载,响应速度会快得多。但如果想获得更理想的运行效果,确实还需要更多的显存容量来支撑。
此外,Crescent Island支持从原生FP4/MXFP4到FP64的广泛数据类型,PCIe兼容的外形规格进一步降低了扩展门槛。目前已有超过20家OEM和ODM厂商正针对该产品进行开发,更多细节将在未来几个月陆续披露。
英特尔技术专家指出,Crescent Island GPU走是一条极高性价比的路线,非常适合端侧或者是企业的典型场景,比如说一机8卡或者是一机16卡的部署。
在软件支持方面,Crescent Island GPU将提供开箱即用的广泛模型软件支持,围绕四个原则构建统一的 Xe 软件栈,即开放、规模化性能、优秀的用户体验以及支持异构基础设施。
从CPU公司,到AI系统公司
从一个整体的视角看英特尔至强6+的发布,会发现一个有趣的现象,英特尔发布的并不是一款产品,而是一套体系——CPU、GPU、网络、软件生态同时出现,全部围绕同一个主题展开。
这背后反映出英特尔数据中心战略的一次深层转变。过去的数据中心竞争,本质上是单芯片竞争。而Agent时代正在让这种边界消失,因为Agent运行需要的是完整系统,CPU负责控制平面,GPU负责推理平面,网络负责数据流动,软件负责资源编排,任何单一环节都无法独立完成任务。

软件生态是英特尔在这场竞争中的另一张牌。其统一Xe软件栈已支持PyTorch、vLLM、SGLang等主流框架,坚持上游优先策略,不构建封闭生态,而是把对英特尔硬件的支持直接贡献到开源框架的上游代码里,每款新硬件发布都提供Day 0的即刻支持。未来开发者可以在锐炫Pro平台上完成开发,再无缝部署到Crescent Island上,前向和后向兼容性都有保障。

有些技术积累,只有到了Agent时代才被重新发现价值。曾义提到了一个例子,英特尔多年前推出的IAA(Intel In-Memory Analytics Accelerator),可以在内存层做压缩和解压缩加速。当时客户兴趣有限,但Agent需要频繁快速地换入换出上下文状态,IAA的价值突然变得清晰。国内几家大的头部客户在与我们进行讨论和演进的时候,这个项目的进展速度也非常快。
CXL内存扩展同样如此,通过CXL在多个CPU之间共享大容量内存池,正在成为Agent大规模部署时的重要基础设施选项。
在英特尔面向生成式AI的产品组合,CPU依旧是值得关注的重点。雷峰网(公众号:雷峰网)了解到,英特尔下一代至强CPU代号Diamond Rapids,将基于Intel 18A P工艺,采用16通道内存配置,提供更多PCIe通道,预计2027年发布。至强6+和Diamond Rapids之间保持完整的Socket兼容性,客户不需要为了升级重构整套基础设施。

过去几年,AI行业最大的叙事是GPU统治世界。
但Agent的出现,正在让产业重新审视CPU的价值。
对于英特尔而言,至强6+最重要的意义或许并不只是288个核心,也不只是Intel 18A首次进入数据中心市场。更重要的是,它正在证明一件事,当AI从生成答案走向执行任务,CPU依然是整个AI基础设施不可替代的控制平面。

而随着Agent规模持续扩大,CPU、GPU、网络与软件共同构成的系统能力,或许才是下一阶段AI竞争真正的核心。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。