0
| 本文作者: 张夏宁 | 2025-12-22 17:52 |
12月12日,第八届 GAIR 全球人工智能与机器人大会于深圳正式拉开帷幕。
本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊教授任大会主席。
作为AI产学研投界标杆盛会,GAIR自2016年创办以来,始终坚守“传承+创新”内核,是AI学界思想接力的阵地、技术交流的平台,更是中国AI四十年发展的精神家园。过去四年大模型驱动AI产业加速变革,岁末年初GAIR如约而至,以高质量观点碰撞,为行业与大众呈现AI时代的前沿洞见。
本次峰会之上,RockAI CMO邹佳思以“摆脱Transformer的束缚,让智能重新定义硬件”为主题,为参会者们带来了一场精彩纷呈的演讲。

邹佳思通过提出一个生活场景的假设作为开场,描绘了一幅充分开发端侧智能后的日常生活图景。在设想中,家庭场景中智能设备的联动无需云端参与。如回家后设备自动完成放音乐、加热水、拉窗帘、定闹钟、点早餐等操作,这一系列动作,通过在终端设备上进行本地私有化部署的人工智能模型,实现了场景设备间的智能互联,邹佳思将其称之为“端侧智能”。他还强调,端侧智能并非等于云端大模型的小参数版本。
邹佳思解释称,比起云端智能,使用端侧智能来实现许多生活场景的智能化是更好的选择。省去云端的参与在允许模型更加个性化的同时,还避免了使用云端可能带来的个人隐私及成本问题。他认为,现在主流“为云端模型Token付费是一种错误的理念,每天全世界的Token消耗达到万亿以上,而其中至少有50%是被浪费掉的”。
邹佳思承认,从云端迈向端侧智能的过程中,还有许多挑战存在,包括算力、内存等硬件资源受限,实用性要求较高,以及缺少自主学习能力等方面。但他认为,一味的堆算力其实扼杀了创新,而人工智能的开发就像人类,“大家的智力水平可能都差不多,很高很低的都很少,但就是这么一群智商上面差不多的人,我们聚集在一起,可以造火箭,可以造AI,但是单个人是干不成这些事情的。”
因此RockAI致力于以非Transformer架构的模型,开发设备端侧的智能设备,其核心在于使AI拥有原生记忆和自主学习的能力,进而最终达到“群体智能”的生态环境。
邹佳思指出,端侧智能的成长在于其自主进化,从“固定工具”到“持续学习”,并从“周期更新”的模式转变为“即时成长”,让大模型不再“死亡”于部署。
以下是邹佳思的现场演讲内容,雷峰网作了不改变原意的编辑及整理:
大家好,今天我想探讨一个与大家生活密切相关的主题——设备端的智能。

设想这样一个场景:在结束一天的工作后,我倍感疲惫,晚上十点回到家。此时我所期待的应该是,推开门时说一句“今天工作很累,想洗个澡立刻休息,明早七点还需早起”,家中设备能自主启动一系列操作——例如播放一首悠扬的音乐放松心情、热水器开始加热、窗帘自动拉合、设定明早六点的闹钟,甚至预订好六点半的早餐。这般景象并非空想,它其实是可以实现的,而且我们预计将在不久后成为现实。
然而这里存在一个问题:在整个设备联动的过程中,是否真的需要云端参与?不妨想象一些具体情境,例如当我走进浴室时,我希望热水即刻流出,但绝不想某个云端模型看到我正在洗澡、进入浴室或卧室——这样的画面很诡异。实际上,这些操作完全可以依赖设备之间的本地联动来完成,无需任何云端介入。

那为什么会出现云端模型?我们认为,当前按Token付费的云端模型模式是一种错误的理念。如今全球云端模型每日消耗的Token总量已达万亿甚至百万亿级别。在这庞大的消耗中,究竟有多少是真正有效或值得的?
再举一个简单例子:假设我对着手机说“给隔壁老王发送一条生日祝福短信”。如果是云端的模型,执行这个指令的流程是:这段语音需先传输至云端模型,由云端解析为文字,再交由大模型处理并转换为指令,传回本地手机后打开本地应用,可见此链路非常复杂非常绕远。技术追求简单,简单即真理,因此我们判断,至少有50%的Token实际是被浪费的。
包括之前提及的家居场景,其实那个场景可能完全无需云端参与。正因如此,我们更关注端侧智能的发展。事实上,端侧智能今年已引起广泛关注,众多公司开始在此领域发力,大模型也逐渐从云端向端侧延伸。有消息称,OpenAI明年或将发布自有硬件,并与模型结合,甚至传言将训练小参数的模型直接部署于设备端。由此可见,端侧人工智能确实在持续演进。

但端侧智能同样面临诸多挑战,包括实时性、功耗以及有限的计算资源,尤其是硬件方面的限制。其中一个核心问题在于端侧的学习能力。因为每台设备——无论是手机、PC还是穿戴设备——都具有高度个性化特征。正因为高度个性化,包含大量个人私有数据,模型若要理解这种个性化并与用户贴近,就必须具备学习能力。否则,现行“预训练-数据压缩-部署至设备”的模式,将意味着模型失去了成长性。尤其在量化过程中,模型经量化后学习能力会进一步减弱,而反量化的成本又十分高昂。
当单个设备变得足够智能,我们身边又拥有众多设备——家居场景中的、随身穿戴的、工作环境内的——如果这些设备能够相互联动,是否会催生另一种形态的智能?就像人类,每个人的技能方向各异,但智力水平大多相近,极高或极低者均属少数。正是这样一群智力相仿的人聚集协作,能造出火箭、开发AI,这是单一个体难以完成的事情。

回到技术路线。当前大模型的发展仍以Transformer架构为主导。过去几年,焦点多集中于规模化训练——依赖更多数据、更大算力、更高人才密度,以打造更强大、更全能的模型。暂且不论这般投入是否存有泡沫,实际上,算力的增长正在扼杀创新,也令许多小团队失去机会。目前国内外大模型厂商基本都在拼资源。如果所有参与者都需要如此庞大的资源,创新将从何而来?当大家在同一条道路上愈行愈远,真正的问题在于:模型是否必须足够大?数据是否必须海量?我个人或许未曾读过上千本书,但这并不妨碍我今天在此分享观点,也不妨碍我从事AI行业。我必然没有一个大模型懂得多,它可能已遍览所有的书籍与资料,但人类的进化与工作方式并非如此。

现在的云端模型还可通过在线检索等方式获取实时知识,但依赖搜索来实现这一功能本身已显不足。因此我们认为,静态的函数压缩式智能难以诞生真正的智能。
第二个问题是:更多参数是否意味着更强智能?我们认为参数量的扩大仅是扩展了函数空间的容量,实现了知识的压缩与传播,并未真正创造知识。
关于记忆,目前许多大模型厂商也在探讨记忆功能,但现有方案多通过RAG、数据库或上下文等方式实现。这种方式好比借助笔记本记录数据,却没有真正进入模型的大脑。

因此对于未来的智能硬件而言,我们认为最重要的在于原生记忆与自主学习能力。记忆可分为多个维度,包括形态记忆与知识记忆。形态记忆指模型记住一串数字、一个电话号码或银行卡号;知识记忆则不同,它并非具体数字,而是经大脑转化后形成的知识,例如我正在输出的观点。
更高一层是记忆所构成的世界观。如同人类三观的形成,它并不是靠别人在某一天告诉你“应该成为怎样的人”,而是通过长期记忆与学习逐步构建的价值观。若模型仅有外部接入的记忆,或自身缺乏记忆能力,那么所谓的模型个性化及后续进化几乎都难以实现。
除了记忆,设备端与云端的一大差异在于设备端具有部署属性。或许有人质疑:设备端也可以联网,那么接入云端模型是否也能实现相同的功能?以人脸识别为例:早期人脸识别多在云端完成,如今却几乎全部移至设备端。这不仅是时延与隐私的考量,也涉及成本问题。

因此我们认为,大模型的发展方向应从固定工具转向持续学习,从每三月或半年更新一次的知识库,转变为能够实时成长的系统。

这是我们RockAI开发的非Transformer架构Yan大模型,其主要特点包括两项核心技术:一是记忆模块,二是选择激活机制。记忆模块被内置在模型架构中,能更精准地控制细密度,从而在学习时,更新参数的权重会具有更准确的靶点靶向。

通过这张对比表可以看出,非Transformer架构在多项指标上与Transformer架构模型效果差异不大。当然Transformer在某些指标上仍优于我们,因此我们尚有提升空间。但在总体发展方向上,非Transformer架构应该占有一席之地。

这里做一个简短演示(今年世界人工智能大会也曾现场展示):把模型部署到手机上,通过手机学习某些概念、动作或知识,进而指挥机器狗完成指定任务。如需获取演讲PPT,欢迎添加雷峰网作者微信DanielZhang0109获取。
从视频可以看出,端侧模型在许多情境下具备很强的理解能力。它能够从非设备本体的动作中抽象出概念,进而组合设备的原子能力并重新编排,以复现该动作。
此类应用场景本质上十分广泛。例如:一位老人对空调说“我的小孙子每天下午三点踢完足球回家时满头大汗,不要对着他吹风,同时将温度调至28度以上。”这整段话是一个完整诉求,老人希望空调在检测到小孩子进门时自动执行该指令。该指令本质上涵盖多层技术,包括模型理解、图像理解以及记忆能力——模型需记住诉求,并在每次孩子回来时重复执行,这是真正可落地的应用。

我们认为当前许多硬件仍处于偏静态的阶段,即便是一些小型设备终端,尤其像AI玩具,其本质仍是以玩具为主体,只是挂载了接入云端模型的AI功能,AI并未真正融入设备本体。
因此它的AI功能并无本质上的差异化。对小朋友来说,它无法产生陪伴感,因为模型不具备情感反馈,不能随使用者学习,也无法理解情绪表达的差异——例如上一次与这一次不开心有什么不同,也无法理解你期望它做些什么。
而当AI具备原生记忆与自主学习能力后,我们认为不仅Token收费模式将终结,整个设备端也会愈加个性化、富有情感且更了解用户。届时,软件与硬件方能实现真正融合。
我们认为,优秀的AI硬件应是让人感受不到AI的存在——正如如今人们过闸机时,不会意识到背后有强大的人脸识别在运作,只觉得它自然解决了问题。但当前许多设备,包括云端服务器及应用,仍让人强烈感知到“这是一个AI”。我们距离真正的AI普及乃至AGI仍有鸿沟需要跨越。只有当大家不再察觉AI存在时,才意味着AI真正融入了日常生活。

RockAI目前主要聚焦于消费电子类设备,包括平板、PC、机器人等方向。这里有一个比较典型的案例可供参考,这个能力现已应用于多款机器人。如需获取演讲PPT,欢迎添加雷峰网(公众号:雷峰网)作者微信DanielZhang0109获取。
当然,该模型支持的模态仍有限,距离理解更多模态还有很长的路要走。我们也认识到当前模型在数据与模态理解等方面面临的困境,但这件事值得投入。至少我们相信,自己正走在正确的道路上。

这张图包含的内容很多,但其核心想表达的是“群体智能”这四个字。这是我们公司以及学界部分专家认为更具可行性、方向更明确的一条路径。我们不确定一个拥有十几万亿参数的模型未来能否成为全面的“六边形战士”,但自然界已给了我们许多启示——比如人类和动物的群体协作。
回顾最初所举的例子,其中80%的问题或许完全可以由设备间协作解决。最终落实到日常生活,我们设想的未来将是云端与设备端相结合、按比例分配协作的模式。

我们仍然期待设备间能够互联,最终实现群体智能,让设备互联涌现出一种新的智能形态。当Transformer道路抵达尽头,面临参数与规模的极限时,我们坚信需要在架构上创新,而非仅在现有路径上不断堆积数据与算力,因为那或许是一条不归路。国家层面与全球经济因素暂且不论,仅从技术角度出发,新的路线亟待出现。
感谢各位,我今天的分享就到这里。
下面是在演讲之后,针对讲座的问答环节
问:对于端侧智能是一定要用非 transformer 架构做吗?
邹佳思:这个也不一定,我们是觉得在路线上最起码是应该百花齐放的,因为单一的架构,大家其实也看到很多问题,比如算力、数据、还有超高的人才密度,这些其实是显而易见的问题。还有像端侧落地的模型怎么变小,模型怎么能跑得起来?这些是架构层面存在的问题。既然有问题,肯定有对应的新的方式去解决,只不过我们是走了一个新的方式而已。现在看不出来哪个路线能走到最后,但是多一条路线,多一个选择,多一些可能性。
问:为什么选择现在Yan架构的这个路线?
邹佳思:其实早期的时候主要还是因为设备上资源的限制,我们从2021年开始做的时候,其实当时的设备比现在的很多算力资源还要低。即使是Transformer架构的3B模型在当时也跑不起来,但我们并不想等产品进化到满足条件后再来做这件事情。所以我们一直在做新的尝试,一直试到2024年,很多的方案我们都申请了专利,虽然这些方案都失败了,但是在尝试的过程中,最后试出来现在Yan模型的方案。我们从2024年1月份Yan 1.0的发布到Yan 1.3,整个模型能商业化、能稳定运行,其实也走了差不多一年的时间。
问:如果我用了端侧模型,这个设备会不会不够智能了?小爱同学这种AI也是在云端的,如果把它部署在那么一个小盒子上,它的成本是不是就会很大,或者小爱同学就不是那么聪明的AI了。
邹佳思:我们做设备端有一个很重要的点是它是跟场景挂钩的,云端的模型大家可能会更倾向于它是一个六边形战士,就是它什么都能干,可一旦到了设备端以后它一定是有偏向的,大家很多的场合也都在讲,说这个落地一定要垂直。
而设备端它有典型的场景限制,就是说我不会用一个手机,或者用一个简单的设备干所有的事情。对于这个事情,一旦你走到垂直领域的时候,其实模型端的差异可能就不会那么大。可能你要解决的就是其他问题,比如说功耗,比如说对硬件的需求。
刚才我们也有一页PPT展示了与其他模型的对比,虽然可能不那么权威,但还是能看出来一些端倪,就是比如一个小参数的3B模型,可能它能达到没有做过优化的8B模型甚至更高的模型的效果,而且这个事情在很多MIT的论文里面已经论证过了,就是模型参数很大,但在解决实际场景的时候,很多参数其实也是浪费。之前有一篇特别有意思的论文就是关于一个百亿参数的模型,把很多参数都给剪裁掉,或者是给 mark掉,但是发现做任务的效果其实是一样的,所以在一定程度上解释了这个事情。
不过一个3B的模型要跟一个万亿的参数去比,这肯定是有差距的,但是就要看这个模型实际场景能解决哪些问题。就像现在智能家居的这个场景,如果所有的设备上都布了一个3B的模型,那它就能帮你解决很多生活里面你需要去做的事情。
讲座完整视频,详见链接:https://youtu.be/-zosrLdozQI
雷峰网原创文章,未经授权禁止转载。详情见转载须知。