全球「AI学术顶会」精华汇聚地
您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
芯片 正文
发私信给陈悦琳
发送

0

被遗忘十年的LPU翻红,一门新生意成立了吗?

本文作者: 陈悦琳   2026-06-25 17:45
导语:下一个“法拉利”LPU,要么找到“金主”客户,要么拥有“大众”搭档。

当AI从训练走向推理时代之后,单一通用架构开始触及效率边界。变化由此发生——“只用GPU打天下”的故事难以延续,专业化分工逐渐成为芯片行业的共识。

越来越多企业尝试将不同计算任务拆解给不同类型芯片处理。

谷歌在新一代TPU上推进训推分离;Anthropic押注存内计算架构;SambaNova推出“CPU+GPU+RDU”系统方案;Cerebras则选择以晶圆级芯片挑战传统GPU集群。

其中最具代表性的案例,是被黄仁勋“捧红”的Groq。

随着Groq LPU(Language Processing Unit,语言处理单元)被纳入英伟达Vera Rubin平台,原本被视为“小众路线”的LPU第一次进入主流AI基础设施体系。对于行业而言,这不仅宣告了一种新芯片获得认可,更意味着推理时代开始接受不同芯片处理不同任务的逻辑。

国内市场同样感受到这股风向。围绕数据流架构、SRAM高带宽存储以及其他推理加速方向,各类新方案不断涌现,想要讲出自己那版LPU故事的玩家也接连冒头。(更多技术故事和商业内幕,欢迎添加作者微信Evelynn7778交流)

当AI芯片专业化分工趋势日渐明朗,LPU究竟是一种阶段性热点,还是推理时代长期存在的新工种?而当赛道逐渐变得拥挤,LPU或许是一种成立的需求,但独立LPU公司会是一门成立的生意吗?

被遗忘十年的LPU,为什么突然红了?

用25%的Groq LPU搭配75%的Vera Rubin来应对源源不断的高价值Token生成需求,这是英伟达给出的最新方案。

打法背后,是Agent时代对规则的改写:AI应用不再只是一次性问答,持续推理的工作流正在引发Token洪流;基础设施竞争不断升维,从单芯片性能比拼迈向系统层级的效率优化。

于是,Transformer推理过程中的每一道工序开始被重新丈量和打磨。

最先被看清的是Prefill与Decode——一个更关注算力密度,另一个更依赖响应速度和系统吞吐能力。

但行业很快发现,即使在Decode内部,不同工作负载的最大诉求也不尽相同:Attention(注意力机制)忙于搬运和读取海量KV Cache,大量Token生成任务则落在FFN(前馈神经网络)身上。

当差异被看见,分工协作的需求也愈发迫切。不同类型芯片开始进入推理系统,各自承担最擅长的工作。

Groq LPU正是在这一背景下重新进入市场视野,作为Vera Rubin平台中的新增角色,以LPX系统形式专攻FFN相关工作流。

某种程度上,这也释放了“推理不再绑定单一架构”的信号。

“超低延迟推理等不适合GPU处理的极端场景,就可以交付给LPU。”芯片架构师方晓表示,“相当于开了一条高速通道专门服务客户。”

事实上,LPU并非横空出世。Groq成立于2016年,其核心架构设计同样诞生于上一个AI时代。但过去很长时间里,这类专用芯片始终没有进入主流市场。

转折点出现在系统级创新成为行业共识之后。

据悉,2025年初英伟达首次向合作伙伴开放NVLink互联生态后,Groq主动寻求接入机会,希望获得这一原本用于GPU之间通信的协议支持。

随着GPU与LPU协同运行的可能性得到验证,双方合作开始具备现实基础。而英伟达自身战略的变化,带来更大的想象空间。

AI系统架构师徐先生观察到,未来针对Transformer推理范式设计的新型芯片会越来越多。“通过单颗芯片实现领先的时间正在缩短。”他表示,“而凭借系统级架构创新,英伟达的领先优势很可能从几个月拉长到1-2年。

换句话说,对于英伟达而言,引入LPU并非为了取代GPU,而是希望找到更适合承担特定推理任务的角色。(关于当前业内异构方案的真实落地情况,欢迎添加作者微信Evelynn7778交流)

专业化分工为LPU带来新的机遇,但能否把机会变成市场,却是另一回事。当越来越多企业开始扎堆LPU赛道,一个更现实的问题正浮出水面:LPU被寄予厚望的技术优势,含金量到底有多大?

LPU的两张王牌,有多少含金量?

LPU最常被提及的“看家”本领之一,是Groq引以为傲的编译器及其静态调度能力。

方晓认为,外界对LPU最大的误解,是将其优势简单归结为单芯片性能。

“单芯片的确定性延迟并非LPU独有,所有ASIC都能做到。真正难的是多芯片间、机柜间和集群间的精确编排。”在她看来,这才是LPU最深的护城河,也是国内非大厂企业很难突破的壁垒。

但曾在大厂负责芯片软件栈设计的Tim对此持保留态度,认为编译能力的价值与模型形态密切相关。

在CNN时代,模型结构丰富、算子种类繁多,编译器拥有许多大显身手的可能。但随着Transformer成为行业主流,大模型的核心算子不断收敛,大量层结构高度重复。

这反而收窄了编译器能够发挥的优化空间。”Tim直言。

与此同时,MoE(Mixture of Experts,混合专家)等动态架构的兴起,也在削弱全静态系统的优势。

“现在这个时代,几乎所有顶流模型都有MoE结构。”Tim说,“推理时具备的动态性,对全静态系统并不是特别友好。

他进一步解释,不同请求在推理过程中激活的专家组合并不相同,而这些信息在编译阶段无法提前获知。

对此,Mark也表达了类似观点,他创办的非GPU芯片企业,目前已获得多家头部美元基金投资。

为了保证系统始终按照预定节奏运行,编译器只能先为最坏情况做打算。”他指出,“被固化的硬件侧也需要保留一定冗余来维持整体同步,这使得部分理论优势会被抵消。”

围绕LPU的软件能力,业内尚未形成统一结论。相比之下,另一张存储“王牌”SRAM似乎更容易被量化。不少从业者表示,这才是LPU最核心的竞争力。

英伟达公开的数据显示,单颗Groq 3 LPU SRAM带宽为150 TB/s,大约是采用H100 HBM3的45倍。在256颗LPU组成的LPX机柜中,总带宽进一步被推高至40 PB/s(注:1 PB/s=1000 TB/s)。

除高带宽能力外,芯片行业从业者杨越认为这一路线的优势还在于绕开了HBM供应链和先进封装的限制。

在当前AI芯片成本结构中,存储的影响力持续上升。Epoch AI数据显示,HBM占AI芯片组件成本的比例已经从2024年初的52%增长至2025年底的63%。

当越来越多成本被HBM吞噬时,市场开始重新审视SRAM路线的价值,但分歧依旧存在。

资深芯片产品负责人顾玥直言:“SRAM其实是LPU巨大的缺陷。”她认为,SRAM最大的特点是快,但代价是容量小、单位成本高。

它更像芯片里的法拉利,卖点是性能,而不是性价比。”顾玥形容道。

不过,IO资本创始合伙人赵占祥并不完全认同这种看法。他认为,单纯比较存储单价并没有太大意义。

“相比SRAM只有几百MB,HBM动辄几十GB甚至上百GB。即便SRAM单位价格比HBM贵,但在容量差距面前,HBM最终承担的总成本反而可能更高。

SRAM也有自己的容量焦虑。有十余年经验的芯片计算架构专家晓东指出,SRAM直接集成在芯片内部,需要与计算单元共享同一块硅片。这意味着面积分配始终是一道难题。

“DRAM一个存储单元只需要1个晶体管和1个电容,而SRAM需要6个晶体管。”他进一步补充,“同样面积下,SRAM能存放的数据天然更少。”

公开数据显示,Groq 3 LPU集成约500MB SRAM,而TPU 8i约为384MB。虽然Cerebras WSE-3凭借晶圆级集成方案将容量提升至44GB,但代价是良率和成本的双重暴击。

讨论SRAM便宜还是昂贵有不同的角度。而更值得拷问的其实在于:推理时代究竟该用什么指标衡量价值?

Mark认为是Token。在他看来,一场从“系统成本”到“Token成本”的评价体系切换正在发生。

过去几年,行业习惯讨论“多少张卡可以部署一个模型”。因此,大量厂商都在强调用更少GPU完成部署。

“但当推理部署规模大到一定程度时,最小系统成本已经不再是首要考量。”Mark说。

他举例称,一些方案虽然可以用8张GPU完成模型部署,但推理成本未必最低。而在DeepSeek公开采用144张卡构建推理集群后,行业开始意识到另一种可能性。

“尽管整体系统成本显著提高,但更大的集群规模换来了更高的带宽、更高的Token吞吐量以及更低的单位Token成本。”Mark分析。

由此SRAM的价值也将被重新考量。只是这套逻辑是否能够长期成立,仍有待检验。

分歧尚未消失,LPU的优势代价也真实存在。但至少有一点已经形成共识:LPU已经拿到了推理系统的入场券。

而其接下来要回答的,是市场一直追问的另一个现实问题——这是一门能够持续赚钱的生意吗?(有关推理加速芯片的更多前景,可添加作者微信Evelynn7778互通有无。)

推理时代需要「法拉利」,但谁来买单?

在获得英伟达加持之前,Groq已凭借独立的端到端推理部署能力,拿下沙特推理基础设施项目、在欧洲部署大型算力中心,并进入Meta的Llama生态。

从这个角度看,Groq的能力并不完全来自技术。

“选择押注这条赛道的企业一定要有目标客户。”赵占祥解释,“因为软件再怎么编译,最终还是要针对具体应用进行优化。”

换句话说,LPU的商业化难点不只在于技术实现,还取决于是否有人愿意买单。但一个不容忽视的问题是——最需要LPU的人,往往也最有能力自研。

徐先生观察到,已经有大模型公司和互联网大厂开始行动。“相对于GPU来说,LPU会简单很多,只要给一两年时间就能做出来。”他表示。(更多大厂推理加速芯片自研内幕和进展,欢迎添加作者微信Evelynn7778一起交流)

但潜在客户变对手还不是最坏的消息。“创企想靠LPU活不下去,需要找到‘大众’。英伟达是在拥有‘大众’的基础上,再增加一辆‘法拉利’,属于锦上添花。”顾玥直言。

Mark指出,这种分工未来还会继续深化。“Attention和FFN之间的解耦程度很高,中间通信带宽要求并不高。”因此在他看来,异构系统并不会带来外界想象中的巨大成本。

Tim也认为,未来推理方案大概率会以异构形态存在。“当每一点优化都能带来上亿美元回报时,研发成本很容易被摊薄。”

不过即便异构趋势成立,市场对于独立LPU公司的前景依然存在疑虑。

据赵占祥观察,很多企业已经在探索类似路线——用大容量SRAM和分布式存储来完成推理的工作负载。“只不过现在统一叫LPU”。他一语道破。(作者长期跟踪相关项目进展,欢迎添加微信Evelynn7778交流)

方晓联想到DPU的发展历程。2020年前后,随着DPU概念兴起,大量创业公司涌入赛道,几年过去后,不少企业转型。在她看来,LPU有可能重演类似剧本,原因之一在于漫长的市场培育周期。

赵占祥解释,任何一种新计算架构都需要时间沉淀,恰如英伟达GPU历经十年才实现大规模普及。

但这对于创业企业来说,却是最致命的风险。作为高度专用化的ASIC,LPU天然依赖当前主流模型架构。如果未来基础模型改弦更张,相关优化价值也可能被重新评估。

对此,Mark也从另一角度给出回应:“这反而给了创业公司机会,因为大厂未必愿意承担这种高风险。”

而晓东则相对乐观。他指出,从CNN时代的AlexNet引爆现代深度学习浪潮开始,过去十余年AI范式虽然不断演进,但底层逻辑并未发生根本改变。未来的新架构更可能是Transformer的Plus版。

Tim也给出了类似判断:“只要模型仍然需要从海量知识中筛选、调用和组合信息,对高带宽的需求就不会消失。基于这个需求来设计芯片,即使Transformer被替代,芯片本身也不会因此作废。”

市场从不缺乏新芯片的故事。真正决定一家LPU企业能否活下来的,未必是它拥有多先进的架构,而是它能否在市场成熟之前找到客户、场景与生态。

毕竟,推理时代或许确实需要越来越多“法拉利”。但对于大多数创业公司而言,比造出一辆法拉利更难的,是找到那个愿意长期购买“大众+法拉利”组合的人。

作者持续关注AI算力芯片上下游,更多信息可添加作者微信Evelynn7778交流。

#文中方晓、顾玥、杨越、晓东、Mark和Tim均为化名。

雷峰网雷峰网(公众号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说