大模型做通用 Or 垂直？中小AI公司的「生死抉择」

本文作者：刘路遥

2023-06-29 14:20

导语：做行业的垂直大模型，同样存在巨大的商业价值。

以ChatGPT为代表的大模型再一次带火了人工智能。

基于目标人群、用途和适用场景的不同，大模型市场可分为通用大模型和垂直大模型两大类。

通用大模型，聚焦基础层，以技术攻关为目的。他们对标ChatGPT做通用大模型，百度的文心一言，阿里的通义千问、科大讯飞的星火大模型等都归属这一类。
垂直大模型，聚焦解决垂直领域问题，以产品开发为目的。他们在通用大模型基础上训练行业专用模型，应用到金融、医疗、教育、养老、交通等垂直行业。

通用大模型的长处聚焦于一个“广”字，面向人群以及场景适用范围十分广泛。

但对于特定场景而言，企业并不需要通用大模型的“全能”能力，更多需要的是模型的精度和质量。

垂直大模型以此为切入点，选择了另一条路径。他们以具备的行业知识为基础，通过与通用大模型企业合作的方式，训练行业专用模型。

“站在客户角度，行业客户最为看重的是定制化的需求，以及AI企业的工程化落地能力。”众数信科CEO吴炳坤对雷峰网(公众号：雷峰网)说。

作为垂直大模型的一员，众数信科成立于2021年初，由云从科技、厦门火炬创投、民生电商发起成立。

众数信科定位AIGC领域的“知识智能化”，即将数字城市领域沉淀的行业数据、专家经验，通过AI 技术进行工程化。

简单理解，众数信科只做一件事，即将AI 大模型微调为行业专用模型，帮助行业提升效率。

在吴炳坤看来，做行业的垂直大模型，同样存在巨大的商业价值。

通用大模型门槛高企，初创公司在垂直大模型寻找机会

过去几年，商业化一直是困扰整个人工智能行业的难题，大模型的出现让AI商业化看到了新机会。

吴炳坤将AI比作工业时代的石油钻机：“没有钻井机，石油就无法成为工业时代的黑色血液；数据要素时代，没有AI，数据的价值也就得不到充分挖掘。现在大模型带来了无限的想象和发展机会。”

两年前，在数字城市领域，AI更多基于小模型，比如算法只做人脸识别，或只做车牌识别，产品受限很大，研发成本很高，可以扩展的空间不多。

现在，随着 AI 大模型这一关键技术的突破，数据和AI的结合度更加紧密，上述问题都得以突破。

大模型将对全行业都产生颠覆性地重构，已经是业界共识。百度李彦宏、阿里张勇等不少业界大佬都在不同场合，不断重复同样一句话：AI 大模型时代，每个行业的应用都值得重新做一遍。

从目前国内扎堆发布的大模型来看，基础大模型的技术创新，更多是大公司的角斗场。

阿里巴巴张勇曾指出，超万亿参数的大模型研发是一场“AI+云计算”的全方位竞争，囊括了算法、底层庞大算力、网络、大数据、机器学习等诸多领域，是一项复杂的系统性工程。

一方面，通用大模型需要大量有效的数据与计算资源，这离不开超大规模的AI基础设施的支撑；另一方面，长时间的训练、推理背后，也往往意味着高昂的成本。

正因此，当下大模型市场的主角大都是来自于移动互联网时代的大巨头，如百度“文心一言”、阿里“通义千问”、腾讯“混元”等。

大公司们瞄准广泛适用的人群，齐齐布局 NLP、CV、跨模态等多种模型，动用同样海量的数据参数进行预训练，动作整齐划一。

这种“你有，我也有”既是实力的展现，同时也存在同质化问题，会逐渐消弭彼此之间的辨识度，难以在市场中发挥优势。

并且，大模型“海纳百川”的魅力纵然令人着迷，但其终归是一项技术，技术只有与具体应用结合变成产品，带来实际的使用体验和转化成效，才真正具有价值。

换句话说，通用大模型的“大”和“通用”看着诱人，但对于B端行业客户来说，并不能满足需求。

行业客户使用大模型的最终目的，是让业务发展走上新的台阶。因而，他们需要的不是综合技术上的碾压，而是能在具体需求上追求极致，可以实现功能最大化的产品。

换言之，行业客户愿意为合理开发利用的功能买单，但不会为自己用不到的功能买单。

在此背景下，中小初创型企业们，看到了机会。

他们受限于资金和技术，难以走上通用大模型的角斗场，但由于本身具备一定的行业领域知识，反而在垂直大模型的探索上具备天然优势。

在人工智能时代的浪潮中，聚焦少数细分赛道，在通用大模型的底座能力之上，围绕“如何用好大模型”这一接地气的主题，已经成为小公司们安身立命的根本。

专用大模型必经的三重淬炼：技术、场景、数据

当下，很多主流的AI大模型，并没有对外开放模型的训练和微调。较为普遍的做法是，将模型开发好以后，给用户提供一个接口调用。

在吴炳坤看来“很多 AI 大厂现在不会将大模型微调为行业专用模型的能力开放出来。”

首先，AI大模型的打造是一个从算力，到整个框架，到模型再到应用的递进过程，当下AI大厂更多处在夯实基础能力的阶段。

其次，AI产品进入行业，需要跟外部行业应用做适配协同，目前国内的AI大模型做得还不够成熟，当下这个时间点，AI大厂还不太具备工程化落地的能力。

这一现实背景下，垂直大模型玩家要想在通用大模型的基础上微调和推理，定制行业专用模型，并非易事。

基于和云从科技的关系，众数信科不仅能够参与进云从大模型的开发过程，还可以在云从大模型的基础上训练和微调自有的专业模型。

“通过云从，众数信科可以获得更加便捷的接口，更加开放的合作架构，定制化的衔接服务。现在市场上除了AI大厂，其他公司不具备这个能力，这是现阶段众数信科有别于其他创业公司的优势。”吴炳坤说。

在吴炳坤看来，大模型在业务落地过程中，需要不断强化三个方面的要素：一是人工智能技术研发，二是可触达用户的行业场景，三是高质量的行业数据语料。

在技术和场景两个要素上，众数信科的三家股东优势互补，形成了一个较为完整的闭环。

底层技术方面，有云从科技的算法、算力做背书；在应用场景上，有厦门火炬创投提供的制造业产业数字化实践基地；在落地过程中，则有民生电商提供金融和产品商业化落地的资源支持。

三个要素中，最难的是行业数据的获取。因为行业数据会直接影响技术迭代速度和商业竞争。

根据数据的变化性，行业数据可以分为静态数据和动态数据。

静态数据相对稳定，不会发生即时变化，获取路径较为清晰，比如广泛存在于各级政府部门、国企、企业中的自有文档，以及数据库中的数据等。

动态数据指不同行业场景中每时每刻产生的数据，这部分数据不断更新、变化，不容易获得，是与其他竞争者拉开距离的关键能力。

对动态数据的实时获取是众数信科的核心优势之一。

过去两年，众数信科以“i城市生活服务平台”为媒介，触及了国内6个省16个城市的3000万个人用户和数十万企业用户，积累了大量数据。

通过i城市服务平台，众数信科积累了丰富的场景数据，G/B/C端用户需求和行业know-how，依托主流大模型技术底层能力，为客户提供专业领域的知识智能工程化产品和KAAS服务。

此外，由于当下通用大语言模型在专业领域里可训练的语料较为缺乏，因此语言模型落地细分领域过程中，知识局限、认知偏见、记忆幻觉等问题时有发生。

其中，知识局限、认知偏见问题，可以随着数据的不断积累、量变，得到解决，更大的难点来自于记忆幻觉。

本质原因在于，语言模型并非传统理解中的一个数据库，没有真正的记忆能力，无法记住过去处理过的信息。而是通过训练数据学习文本序列的数据分布，然后再根据学习到的数据分布生成文本序列，最终生成内容。

吴炳坤表示，“大模型并非一蹴而就，而是一个不断动态优化的过程。众数信科会根据特定行业场景，以及对知识库上下文的学习等特定方法，在较大程度上规避生成内容‘胡编乱造’的情况，同时不断和客户做基于人类反馈的强化学习。”

行业专用模型的商业化落地，一场从B到C的竞速

对比通用大模型，行业大模型需要更快的商业化来兜底。

“AI大模型在行业落地的赛马，谁跑得越快，谁越有机会。”吴炳坤如此总结。

众数信科的商业化思路是：G端搭平台，B端积累经验，C端快速复制。

通过 G 端切入，能够快速覆盖市场，同时批量聚拢B端和C端资源，最终将B端行业客户经验，快速复制到C端。

“只有C端才能形成快速复制的病毒效应，C端是现在以及下一个阶段重点布局的领域。”

城市生活服务领域，教育、养老和文旅，是众数信科找到的三大落地场景。

以教育行业为例，众数信科依托云从的从容大模型，首先打造出了适用于学校、培训机构的教育行业专用模型，并已在厦门部分地区试点使用。

具体落地过程，主要分三步进行：

第一步，积累和标注。基于多年在数字平台建设和运营中积累的教师行业专业语料数据，同时依托行业专家经验对数据进行标注，形成专有领域的训练数据。
第二步，训练和微调。在前者的基础上，依托云从的从容大模型，采用知识蒸馏、权值量化、剪枝等工程化手段，将通用、庞大的教师网络，训练成一个特定行业的学生网络。
第三步，落地和反馈。进入具体场景，并在此后运营过程中，不断积累用户的正负反馈，通过基于人类反馈的强化学习，反向打磨教育行业模型。

上述三个步骤中，专家的数据标注，以及基于人类反馈的强化学习，是两个必经的难点。解决这两个难点，需要通过推广行业应用，加强知识积累，不断自我迭代逐步解决。

与模型专业性的逐步进步相对应，众数信科选择了从教师的“数字助理”到“数字分身”的渐进路线。

现阶段，众数信科的行业专用模型还处在教师的“数字助理”阶段。“数字助理”具备课件自动生成、灵活生成考题、对学生进行个性化评价等服务，教师在生成内容的基础上做最后的审核把关即可。

一方面，“数字助理”通过辅助教学的方式，可以大大解放教师的精力，不断提升教学效率；另一方面，在与教师共同工作过程中也可以不断学习，最终成长为优秀教师的“数字分身”，达到接近一位优秀教师的程度。

目前，我国教育资源供给侧明显不足，先进地区和落后地区的教育资源差距较大。打造教育行业模型的意义在于，可以借助AI，将先进地区的先进学校的先进教师经验传承下来，带到部分教育资源供给不足的地区。

众数信科采取了两条腿走路的办法，即分别在教育先进地区和教育落后地区推广“数字助理”和“数字分身”。

“将先进地区教师知识的沉淀，放在同样先进的地区，可能不能满足需求，但在一些教育落后地区，基本上能够符合当地的使用需求。”

换言之，发达地区沉淀的“数字助理”，在部分教育资源稀缺地区，已经相当于教师的“数字分身”。

吴炳坤向雷峰网透露，今年下半年，众数信科将在黑龙江教育资源比较欠缺的地区，进行“数字分身”的布局。

未来，随着教育行业的模型沉淀和知识积累，因人施教也是教育模型功能演化的重要方向。“数字分身”可以进一步走入家庭，根据不同学生提供差异化教育方案，做到因人施教，为家庭教育减负。