被遗忘十年的LPU翻红，一门新生意成立了吗？

本文作者：陈悦琳

2026-06-25 17:45

导语：下一个“法拉利”LPU，要么找到“金主”客户，要么拥有“大众”搭档。

当AI从训练走向推理时代之后，单一通用架构开始触及效率边界。变化由此发生——“只用GPU打天下”的故事难以延续，专业化分工逐渐成为芯片行业的共识。

越来越多企业尝试将不同计算任务拆解给不同类型芯片处理。

谷歌在新一代TPU上推进训推分离；Anthropic押注存内计算架构；SambaNova推出“CPU+GPU+RDU”系统方案；Cerebras则选择以晶圆级芯片挑战传统GPU集群。

其中最具代表性的案例，是被黄仁勋“捧红”的Groq。

随着Groq LPU（Language Processing Unit，语言处理单元）被纳入英伟达Vera Rubin平台，原本被视为“小众路线”的LPU第一次进入主流AI基础设施体系。对于行业而言，这不仅宣告了一种新芯片获得认可，更意味着推理时代开始接受不同芯片处理不同任务的逻辑。

国内市场同样感受到这股风向。围绕数据流架构、SRAM高带宽存储以及其他推理加速方向，各类新方案不断涌现，想要讲出自己那版LPU故事的玩家也接连冒头。（更多技术故事和商业内幕，欢迎添加作者微信Evelynn7778交流）

当AI芯片专业化分工趋势日渐明朗，LPU究竟是一种阶段性热点，还是推理时代长期存在的新工种？而当赛道逐渐变得拥挤，LPU或许是一种成立的需求，但独立LPU公司会是一门成立的生意吗？

被遗忘十年的LPU，为什么突然红了？

用25%的Groq LPU搭配75%的Vera Rubin来应对源源不断的高价值Token生成需求，这是英伟达给出的最新方案。

打法背后，是Agent时代对规则的改写：AI应用不再只是一次性问答，持续推理的工作流正在引发Token洪流；基础设施竞争不断升维，从单芯片性能比拼迈向系统层级的效率优化。

于是，Transformer推理过程中的每一道工序开始被重新丈量和打磨。

最先被看清的是Prefill与Decode——一个更关注算力密度，另一个更依赖响应速度和系统吞吐能力。

但行业很快发现，即使在Decode内部，不同工作负载的最大诉求也不尽相同：Attention（注意力机制）忙于搬运和读取海量KV Cache，大量Token生成任务则落在FFN（前馈神经网络）身上。

当差异被看见，分工协作的需求也愈发迫切。不同类型芯片开始进入推理系统，各自承担最擅长的工作。

Groq LPU正是在这一背景下重新进入市场视野，作为Vera Rubin平台中的新增角色，以LPX系统形式专攻FFN相关工作流。

某种程度上，这也释放了“推理不再绑定单一架构”的信号。

“超低延迟推理等不适合GPU处理的极端场景，就可以交付给LPU。”芯片架构师方晓表示，“相当于开了一条高速通道专门服务客户。”

事实上，LPU并非横空出世。Groq成立于2016年，其核心架构设计同样诞生于上一个AI时代。但过去很长时间里，这类专用芯片始终没有进入主流市场。

转折点出现在系统级创新成为行业共识之后。

据悉，2025年初英伟达首次向合作伙伴开放NVLink互联生态后，Groq主动寻求接入机会，希望获得这一原本用于GPU之间通信的协议支持。

随着GPU与LPU协同运行的可能性得到验证，双方合作开始具备现实基础。而英伟达自身战略的变化，带来更大的想象空间。

AI系统架构师徐先生观察到，未来针对Transformer推理范式设计的新型芯片会越来越多。“通过单颗芯片实现领先的时间正在缩短。”他表示，“而凭借系统级架构创新，英伟达的领先优势很可能从几个月拉长到1-2年。”

换句话说，对于英伟达而言，引入LPU并非为了取代GPU，而是希望找到更适合承担特定推理任务的角色。（关于当前业内异构方案的真实落地情况，欢迎添加作者微信Evelynn7778交流）

专业化分工为LPU带来新的机遇，但能否把机会变成市场，却是另一回事。当越来越多企业开始扎堆LPU赛道，一个更现实的问题正浮出水面：LPU被寄予厚望的技术优势，含金量到底有多大？

LPU的两张王牌，有多少含金量？

LPU最常被提及的“看家”本领之一，是Groq引以为傲的编译器及其静态调度能力。

方晓认为，外界对LPU最大的误解，是将其优势简单归结为单芯片性能。

“单芯片的确定性延迟并非LPU独有，所有ASIC都能做到。真正难的是多芯片间、机柜间和集群间的精确编排。”在她看来，这才是LPU最深的护城河，也是国内非大厂企业很难突破的壁垒。

但曾在大厂负责芯片软件栈设计的Tim对此持保留态度，认为编译能力的价值与模型形态密切相关。

在CNN时代，模型结构丰富、算子种类繁多，编译器拥有许多大显身手的可能。但随着Transformer成为行业主流，大模型的核心算子不断收敛，大量层结构高度重复。

“这反而收窄了编译器能够发挥的优化空间。”Tim直言。

与此同时，MoE（Mixture of Experts，混合专家）等动态架构的兴起，也在削弱全静态系统的优势。

“现在这个时代，几乎所有顶流模型都有MoE结构。”Tim说，“推理时具备的动态性，对全静态系统并不是特别友好。”

他进一步解释，不同请求在推理过程中激活的专家组合并不相同，而这些信息在编译阶段无法提前获知。

对此，Mark也表达了类似观点，他创办的非GPU芯片企业，目前已获得多家头部美元基金投资。

“为了保证系统始终按照预定节奏运行，编译器只能先为最坏情况做打算。”他指出，“被固化的硬件侧也需要保留一定冗余来维持整体同步，这使得部分理论优势会被抵消。”

围绕LPU的软件能力，业内尚未形成统一结论。相比之下，另一张存储“王牌”SRAM似乎更容易被量化。不少从业者表示，这才是LPU最核心的竞争力。

英伟达公开的数据显示，单颗Groq 3 LPU SRAM带宽为150 TB/s，大约是采用H100 HBM3的45倍。在256颗LPU组成的LPX机柜中，总带宽进一步被推高至40 PB/s（注：1 PB/s=1000 TB/s）。

除高带宽能力外，芯片行业从业者杨越认为这一路线的优势还在于绕开了HBM供应链和先进封装的限制。

在当前AI芯片成本结构中，存储的影响力持续上升。Epoch AI数据显示，HBM占AI芯片组件成本的比例已经从2024年初的52%增长至2025年底的63%。

当越来越多成本被HBM吞噬时，市场开始重新审视SRAM路线的价值，但分歧依旧存在。

资深芯片产品负责人顾玥直言：“SRAM其实是LPU巨大的缺陷。”她认为，SRAM最大的特点是快，但代价是容量小、单位成本高。

“它更像芯片里的法拉利，卖点是性能，而不是性价比。”顾玥形容道。

不过，IO资本创始合伙人赵占祥并不完全认同这种看法。他认为，单纯比较存储单价并没有太大意义。

“相比SRAM只有几百MB，HBM动辄几十GB甚至上百GB。即便SRAM单位价格比HBM贵，但在容量差距面前，HBM最终承担的总成本反而可能更高。”

SRAM也有自己的容量焦虑。有十余年经验的芯片计算架构专家晓东指出，SRAM直接集成在芯片内部，需要与计算单元共享同一块硅片。这意味着面积分配始终是一道难题。

“DRAM一个存储单元只需要1个晶体管和1个电容，而SRAM需要6个晶体管。”他进一步补充，“同样面积下，SRAM能存放的数据天然更少。”

公开数据显示，Groq 3 LPU集成约500MB SRAM，而TPU 8i约为384MB。虽然Cerebras WSE-3凭借晶圆级集成方案将容量提升至44GB，但代价是良率和成本的双重暴击。

讨论SRAM便宜还是昂贵有不同的角度。而更值得拷问的其实在于：推理时代究竟该用什么指标衡量价值？

Mark认为是Token。在他看来，一场从“系统成本”到“Token成本”的评价体系切换正在发生。

过去几年，行业习惯讨论“多少张卡可以部署一个模型”。因此，大量厂商都在强调用更少GPU完成部署。

“但当推理部署规模大到一定程度时，最小系统成本已经不再是首要考量。”Mark说。

他举例称，一些方案虽然可以用8张GPU完成模型部署，但推理成本未必最低。而在DeepSeek公开采用144张卡构建推理集群后，行业开始意识到另一种可能性。

“尽管整体系统成本显著提高，但更大的集群规模换来了更高的带宽、更高的Token吞吐量以及更低的单位Token成本。”Mark分析。

由此SRAM的价值也将被重新考量。只是这套逻辑是否能够长期成立，仍有待检验。

分歧尚未消失，LPU的优势代价也真实存在。但至少有一点已经形成共识：LPU已经拿到了推理系统的入场券。

而其接下来要回答的，是市场一直追问的另一个现实问题——这是一门能够持续赚钱的生意吗？（有关推理加速芯片的更多前景，可添加作者微信Evelynn7778互通有无。）

推理时代需要「法拉利」，但谁来买单？

在获得英伟达加持之前，Groq已凭借独立的端到端推理部署能力，拿下沙特推理基础设施项目、在欧洲部署大型算力中心，并进入Meta的Llama生态。

从这个角度看，Groq的能力并不完全来自技术。

“选择押注这条赛道的企业一定要有目标客户。”赵占祥解释，“因为软件再怎么编译，最终还是要针对具体应用进行优化。”

换句话说，LPU的商业化难点不只在于技术实现，还取决于是否有人愿意买单。但一个不容忽视的问题是——最需要LPU的人，往往也最有能力自研。

徐先生观察到，已经有大模型公司和互联网大厂开始行动。“相对于GPU来说，LPU会简单很多，只要给一两年时间就能做出来。”他表示。（更多大厂推理加速芯片自研内幕和进展，欢迎添加作者微信Evelynn7778一起交流）

但潜在客户变对手还不是最坏的消息。“创企想靠LPU活不下去，需要找到‘大众’。英伟达是在拥有‘大众’的基础上，再增加一辆‘法拉利’，属于锦上添花。”顾玥直言。

Mark指出，这种分工未来还会继续深化。“Attention和FFN之间的解耦程度很高，中间通信带宽要求并不高。”因此在他看来，异构系统并不会带来外界想象中的巨大成本。

Tim也认为，未来推理方案大概率会以异构形态存在。“当每一点优化都能带来上亿美元回报时，研发成本很容易被摊薄。”

不过即便异构趋势成立，市场对于独立LPU公司的前景依然存在疑虑。

据赵占祥观察，很多企业已经在探索类似路线——用大容量SRAM和分布式存储来完成推理的工作负载。“只不过现在统一叫LPU”。他一语道破。（作者长期跟踪相关项目进展，欢迎添加微信Evelynn7778交流）

方晓联想到DPU的发展历程。2020年前后，随着DPU概念兴起，大量创业公司涌入赛道，几年过去后，不少企业转型。在她看来，LPU有可能重演类似剧本，原因之一在于漫长的市场培育周期。

赵占祥解释，任何一种新计算架构都需要时间沉淀，恰如英伟达GPU历经十年才实现大规模普及。

但这对于创业企业来说，却是最致命的风险。作为高度专用化的ASIC，LPU天然依赖当前主流模型架构。如果未来基础模型改弦更张，相关优化价值也可能被重新评估。

对此，Mark也从另一角度给出回应：“这反而给了创业公司机会，因为大厂未必愿意承担这种高风险。”

而晓东则相对乐观。他指出，从CNN时代的AlexNet引爆现代深度学习浪潮开始，过去十余年AI范式虽然不断演进，但底层逻辑并未发生根本改变。未来的新架构更可能是Transformer的Plus版。

Tim也给出了类似判断：“只要模型仍然需要从海量知识中筛选、调用和组合信息，对高带宽的需求就不会消失。基于这个需求来设计芯片，即使Transformer被替代，芯片本身也不会因此作废。”

市场从不缺乏新芯片的故事。真正决定一家LPU企业能否活下来的，未必是它拥有多先进的架构，而是它能否在市场成熟之前找到客户、场景与生态。

毕竟，推理时代或许确实需要越来越多“法拉利”。但对于大多数创业公司而言，比造出一辆法拉利更难的，是找到那个愿意长期购买“大众+法拉利”组合的人。

作者持续关注AI算力芯片上下游，更多信息可添加作者微信Evelynn7778交流。

#文中方晓、顾玥、杨越、晓东、Mark和Tim均为化名。

雷峰网雷峰网(公众号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

陈悦琳

编辑

发私信

当月热门文章