别再声讨零一万物了

本文作者：陈彩娴

2023-11-15 20:09

导语：Transformer 时代，重复造轮子或是 AI 爆发的最大阻碍。

最近两天，由原阿里技术副总裁、深度学习框架 Caffe 发明者贾扬清一则朋友圈引发的关于“国内某大厂新模型套壳 LLaMA 架构”的问题在中国人工智能圈与科技媒体中产生了热烈讨论。

由于贾扬清在国内 AI 圈的号召力极大，且由于贾扬清的朋友圈内容指示称套壳模型的做法是“把代码里面的名字从 LLaMA 改成了他们的名字，然后换了几个变量名”、在 Hugging Face 被海外工程师指出，碰巧几天前零一万物上传到 Hugging Face 的大模型 Yi-34B 被指出其除了有两个张量被重新命名后、完全使用了 LLaMA 的框架，于是：

在黑盒子般的逻辑链推导下，成立不到一年的零一万物成为了贾扬清在朋友圈声讨的“国内大厂”，Yi-34B 也成为了群情炮轰之下的炮灰。

事实上，贾扬清明确指出套壳模型来自“国内大厂”，但由于没有指名道姓，这则朋友圈所引发的猜忌后果甚至可能超出了贾扬清本人的意料。如一位网友所言，大家开始猜忌是阿里、是百度、还是腾讯、华为……进而引发一系列对国内科技创新的唱衰。

而讨论开始后，零一万物官方很快在 Hugging Face 与媒体平台中作出回应，表示团队确实沿用了 LLaMA 与 GPT 基础架构，并会将代码更新，重新命名，以符合大模型开源社区的要求。

尽管如此，风波未有平息的苗头。但在笔者看来，该事件其实值得另一维度的更深讨论，即：1）Transformer 时代，大模型的发展还需要多少种新的架构？2）LLaMA 掀起的开源狂潮背后，比训练架构更重要的大模型训练过程为什么少人问津？

甚至在 Hugging Face 社区提出原帖讨论的海外工程师都自己说：“LLaMA架构没毛病，模型训练才是重中之重。”

There's nothing wrong with llama architecture.

The training is everything.

分析这波热议，相比“目标”的创新，人们似乎更强调“手段”的重复造轮子。

1、架构之于大模型

大模型狂飙 300 天后，人工智能圈开始出现一种声音：反对“重复造轮子”。

尽管行业一致认为，大模型驱动的 AI 新时代只需要少数的通用大模型，但在实践中，模型的数量仍然层出不穷，相形之下，万众期待的“AI 应用”迟迟没有爆发，人工智能时代的“Killer App”更是连轮廓都没有。

今天早上，深圳西丽湖论坛，百度 CEO 李彦宏与硅谷人工智能研究院创始院长皮埃罗·斯加鲁菲（Piero Scaruffi）同时用一组数据指出了这个问题：

2023 年 6 月，中国的大模型数量是 79 个，而 2023 年 10 月就增长到了238 个，相当于中国的大模型数量在 4 个月内增长了 3 倍；
截至 2023 年 10 月，仅 Hugging Face 一个平台上就有接近 3 万个文本生成模型（29776）供开发者下载使用。

这两个数据反映了全球的人工智能创新都还处于对模型热情的阶段，距离关注模型以外的产品、应用乃至商用落地模式等还有很长的路要走。也是在这一思维范式的惯性下，“套壳 LLaMA架构”成为模型架构创新一派不遗余力抨击的对象。

但对大模型发展来说，与模型数量暴增雷同的一个问题是：我们是否需要更多的模型架构？

如果我们需要更多的架构，具体数量是多少？在 GPT 大模型的“虹吸效应”下，新的大模型架构能产生多大的影响力？

在 Transformer 一统天下的大模型时代，如青年 AI 学者符尧指出，Transformer 已经固定了大模型的架构，LLaMA 架构沿用 Chinchilla、Chinchilla 沿用 Gopher、Gopher 沿用 GPT-3（GPT-3 又是基于 Transformer），每个模型的架构都是只改一两行、然后将模型重新命名。

基于全球现有的文本生成模型数量已经过万、国内的大模型数量也超过了 200，除零一万物外，如果市场上已发布的每一个大模型都进行了架构上的创新，那么目前国内市场里现存的基于 Transformer 的大模型架构已经超过了 200 个——但没有人会相信这个数字。

事实上，早在今年 5 月，圈内就流传出了不少“某家大模型套壳 XXX”的声音。

在 LLaMA 1 还未开放开源可商用授权时，对于 LLaMA 的“借鉴”就已有不少实践。由于 LLaMA 1 规定其权重不能被用于商业用途，当时圈内最早的做法是：先将 LLaMA 的权重下载下来，然后在此基础上增补。该方法最终得到的结果是：“套壳模型”最终跑出来的权重与 LLaMA 完全不同，但在部分任务上的效果不相上下。

在零一万物之前，不少国内知名的大模型公司都曾经“中过枪”，只是因为没有大 IP 的造势、才没有引起如此广泛的讨论。而这类“套壳”说法背后的依据，也主要是“沿用 LLaMA 架构”。

但如果仅因为沿用 LLaMA 架构而批评国内的模型没有创新，是有失偏颇的。笔者向多位人工智能技术人员求证后核实：相比架构的创新，训练过程也同样重要，甚至更为重要。

换言之，大家一致认同，沿用 LLaMA 架构不是问题，训练也是区分各家大模型实力的关键因素。

我们可以将 LLaMA 架构理解为一个“地基”：雷峰网(公众号：雷峰网)

如果将大模型比喻成一座房子，那么沿用 LlaMA 架构就是照板打造这座房子的“地基”，但地基以上的房子形状如何设计（即模型的能力），则要看训练过程中的数据与策略等方法论差异。沿用 LLaMA 架构的各家大模型也通常在“房子形状”上各显神通，如训练方法、数据配比。

大模型的训练实际上是一个不断在抽象的过程。Transformer 之所以被称为“基础（fundational）创新”，没有 Transformer 就没有大模型，是因为 Transformer 已经做了第一层抽象，然后 OpenAI、谷歌、百度、智谱等国内外第一批大模型探路者，包括 Meta 的 LLaMA 在 Transformer 的基础上继续做抽象。相当于，第二层抽象也仍然是在打地基、而非设计房屋形状。

因此，2023 年之后入场的大模型公司，沿用 LLaMA 的架构重新训练，是一种更符合创业公司实际、性价比更高的做法。当然，在这个过程中，沿用 LLaMA 架构、却没有声明的行为确实“不厚道”，这是需要纠正的。雷峰网

但相比“重复造轮子”，更多创业者与技术人员认同的方法是，在沿用 LLaMA 等先进架构的基础上，于训练过程中完全使用自家的数据重新训练一遍。尤其对于国内的大模型来说，模型的能力要更加符合社会主义价值观，各家都对数据无比重视。

在零一万物的最新公告中，零一万物也坦承其采用了往通用化逐步收拢的 GPT/LLaMA 的基本架构，但也着重强调：

1）在训练 Yi-34B 与 Yi-6B 的过程中，零一万物的团队也是根据实际的训练框架重新实现了训练代码，用自建的数据管线构建了高质量配比的训练数据集（从3PB原始数据精选到3T token高质量数据）。

2）在 Infra 部分进行算法、硬件、软件联合端到端优化，以此来实现模型训练效率的提升和极强的容错能力等技术创新。

创始人李开复也在朋友圈发表：全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2 --> Yi，行业逐渐形成大模型的通用标准（就像做一个手机app开发者，不会去自创 iOS、Android 以外的全新基础架构）。01.AI 起步受益于开源，也贡献开源，从社区中虚心学习，我们会持续进步。

别再声讨零一万物了

经过几年的演进，大模型圈里 LLaMA 以开源策略出圈，启发了大模型时代的开源文化，在此之后，全球多数的团队在 LLaMA 基础上进行微调训练。相比强调 “抄”LLaMA，在 LLaMA 基础上所做的技术创新也同样值得关注。

2、目标 vs. 手段

无论何时，技术创新都是驱动生产力进步的轮子。

但在当前的大模型发展中，“重复造轮子”的问题之所以为大家关注，是因为相比模型的数量与架构的比拼，决定整个行业命运的其他两个维度进展太慢：一是创新 AI 应用的涌现，二是成功的商业先例。

如前所述，大多数人都觉得，AI 时代、大模型时代的“Killer App”还没有出现。尤其在中国，大模型的数量增长与实际所爆发的应用没有成正比。在这种情况下，更多人趋向于认为：相比继续“卷”大模型，大家应该将更多重心放在 AI 产品的创新上。雷峰网

同样，在大模型的商业上，即使融资力跑在最前的几家大模型，也还未交出一份可观的商业答卷。

大模型创业公司研究基座模型的用途，与其商业模式息息相关，现有的商业模式主要有两种：一是卖模型，二是做应用。

也是在不确定因素更多的当前，技术路线的选择也成为创业公司需要小心翼翼处理的问题。

如一位 AI 行业从业者指出，选择拥抱不同的生态意味着模型的架构也要不同。目前国内的开源模型中，与 LLaMA 架构不同的模型只有少数，如 GLM、RWKV，但后者的生态丰富度目前几乎还无法与 LLaMA 媲美。因此，目前国内的大多数大模型还是围绕 LLaMA 出发，如 IDEA 研究院的 Ziya 大模型就直接叫“Ziya-LLaMA”。

但与此同时，各家大模型也应该注意的一点是：LLaMA 是否为最优解？

一位资深投资者向笔者指出，如果 LLaMA 的架构足够抽象、已经能够囊括所有解的话，那么围绕 LLaMA 的开源与创新自然是最优选择；但万一 LLaMA 不是最优解，大模型创业公司直接在 LLaMA 的基础上研究，只掌握了从 1 到 100、而没有掌握从 0 到 1 的能力的话，届时进展到关键阶段后再回头，就很可能陷入寸步难行的险境。

这也是 LLaMA 开源独领风骚下需要警惕的地方。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

陈彩娴

编辑

发私信

当月热门文章