王小川大模型的第一个里程碑：baichuan-7B 6月15正式开源发布

本文作者：董子博

2023-06-30 15:44

导语：二“王”之中，开出第一“枪”的是王小川。

千呼万唤始出来，王小川的百川智能，终于发布了他们的第一个大模型成果：baichuan-7B。

4月第一次与媒体见面时，王小川对于百川大模型显得相当自信，而“年底争取发布国内最好的大模型”的豪言壮语，一时甚至有些刺耳。

而短短2个半月过去，百川所发布的 baichuan-7B，却足以让不少质疑的人为之“噤声”。

一、大幅领先，最强7B

评判大模型孰优孰劣，尽管当下仍然是个“非共识”，但榜单跑分仍然是印证 AI 能力相当重要的一个路子。而 baichuan-7B 在榜单上的表现，的确令人印象深刻。

在三个最具影响力的中文评估基准中，baichuan-7B 在同等参数量级大模型中的综合评分十分亮眼：

在由微软研究院发起的评测标准 AGI Eval 中，baichua 7B 综合评分34.4，在中国高考、司法考试、SAT、LSAT、GRE 等考试中发挥很好，领先于LLaMa-7B、Falcon-7B、Bloom-7B 以及 ChatGLM-6B 等不少竞争对手；

而在 C-Eval——由上交、清华、爱丁堡大学三个顶级院校联合创建的评测标准中，baichuan-7B 发挥同样出色。在覆盖了52个学科的测评中，baichuan-7B 获评34.4分，在同量级产品中排名第一。

在这次跑分中，baichuan-7B 的表现甚至比起一些参数量级更大的模型更优秀，其中有些参数甚至是 baichuan-7B 的四倍以上。榜单上，比起130亿参数的 GLM-130B 一个月前的测试结果， baichuan-7B 的综合评分也仅相差1.2分。

而在复旦大学研究团队所创建的 GAOKAO 评测框架中，baichuan-7B 在高考题目上的表现同样惊艳，不仅评分在同参数量级的模型中拔得头筹，并且领先第二名近8分。

中文评测在三个榜单拿到第一，而 baichuan-7B 却并不“偏科”，在由美国诸多名校联合划定的 MMLU 英文评估基准上，评分也超过了包括 ChatGLM-6B，LLaMA-7B等开源模型，在英文跨学科专业能力上同样令人信任。

就如同一个“高考状元，baichuan-7B 成绩斐然的背后，百川智能有几个“独门秘籍”

首先，是大规模、高质量训练语料库的构建。如果把面对评测的大模型，比作即将面临考试的应考生，那训练语料就是他们的学习资料和课程——如果没有足够好的课程，学生头脑再聪明也是枉然。

在构建数据集的时候，百川在中英文两方面的数据筛选都采用了独特的手段：

为了保证语料质量，百川使用了质量模型对数据打分，以完成对原始数据集“篇章级”和“句子级”的精确筛选；

而在预料多样性方面，百川为此专研了超大规模局部敏感哈希聚类系统和语义聚类系统，以完成对数据的多层次多粒度聚类。

在这两招之下，baichuan-7B 70亿参数量级的大模型，背后有了一个包含1.2万亿 Token 的高质量与训练数据，内功相当深厚。

其次，是训练效率的提升。资料和课程到位，这位“考生”就要对这些知识进行高效率的学习和消化。就如同学习方法之于考生，训练效率至于大模型也同等重要——掌握了正确的方法，往往事半功倍。

寥寥数月，100天左右的时间，baichuan-7B 能够迅速“出彩”的一个重要原因，就是高效率的训练过程。

为了做到这一点，baichuan-7B深度整合了模型算子来加快计算流程，并针对任务负载和集群配置，自适应优化了模型并行策略以及重计算策略。

通过高效的训练过程调度通信，baichuan-7B成功地实现了计算与通信的高效重叠，进而达到了超线性的训练加速，在千卡集群上，训练吞吐达到 180+ Tflops。

同时，通过更优的训练流程设计和超参数选择，baichuan-7B 的收敛速度获得了重大的提升，也就让其在困惑度（PPL）和训练损失（Training loss）的表现上更加优秀。

最后，是更好的算法优化。有好的复习材料，也有足够高效的学习方法，单有这两点，还不足以产生一个“状元”。类比考生的天资，算法的实力也同等重要。

这一点，在 baichuan-7B 上，主要体现在更大的窗口长度。

为了能让大模型在训练和推理阶段，捕捉更多的上下文信息，以更好的完成一些长文本建模任务，窗口长度对于大模型能力的制约相当明显。

基于高效的attention算子优化，百川智能实现了万级别超长动态窗口的扩张能力。2倍于已有开源模型的窗口长度，baichuan-7B 把这个参数做到了4k，理解能力相比过去获得了巨大的提升，也能够诸如搜索增强、知识嵌入的下游应用场景完成拓展。

更优、更多样、更大的数据，加上更高效、更收敛的训练，再配上更强的上下文理解能力，baichuan-7B 的斐然成绩并不是偶然。

二、开源免费商用，海纳百川的“百川战略”

海纳百川，从百川智能官宣的第一天起，就是王小川创业的关键精神。

从这个角度看，baichuan-7B 选择开源，就称不上是“意料之外”。

代码采用 Apache-2.0 协议，模型权重采用免费商用协议，堪称“最强7B”的 baichuan-7B，如同一本打开的书，开放给社会各界——包括商用——来使用。

这次开源，baichuan-7B 开放了推理代码、INT4量化实现、微调代码，以及预训练模型的权重。对用户的模型调优优化、低成本应用部署，乃至于其他研究者利用 baichuan-7B 完成研究，都有很大的助力。

开放的开源精神，也让 baichuan-7B获得了清华和北大，两所中国顶级高校的青睐。

在清华互联网司法研究院，计算机系教授刘奕群看中了 baichuan-7B 在中文上的效果表现，并计划在此基础上，开展司法人工智能领域的相关研究。

而在北大，人工智能研究所的助理教授杨耀东则表示，在 baichuan-7B 的开源之下，中文基础语言模型的生态建设和学术研究，都将获得裨益。

据披露，清北两所高校表示，己计划在未来与百川智能深入合作，来一起推动 baichuan-7B 的应用和发展。

结语：

看着 baichuan-7B 一路“过关斩将”，不由得让人开始相信，王小川“年底争取做国内最好大模型”的发言，似乎并不只是豪言壮语。

而这次成功的首发，也让百川——乃至整个大模型创业界——看到了更大的动力和希望。

在接受雷峰网采访时，百川智能的技术团队表示：

“这次开源一个7B的模型，并且在公开评测集上有着优异表现，就足以证明百川的产品与技术理念，以及我们在大模型领域的竞争力，也为我们后续的研发提供了更多信心。”

对于百川来说，尽管结结实实地“秀”了一次肌肉，但 7B 规模参数的模型绝不是终点。小试牛刀之后，王小川下一步的动作，在当下相当令人期待。

4月与媒体见面，王小川曾说过，“我们都是第一批迈入新时代的人类”，都有焦虑和好奇。

2个月过去，百川到达了自己的第一个里程碑。而大模型舞台的幕布，也正被徐徐地揭开。

雷峰网(公众号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

搜狗王小川：搜索本身就是以AI为核心 | CCF-GAIR 20 ...

董子博

编辑

发私信

当月热门文章

元点Zeroth迎来拉美首秀全球首款自主回充机器人掀起全球具身新热潮