vivo胡柏山：在焦虑的AI时代，交一份最“冷静”的答案

本文作者：马广宇

2026-03-27 19:15

专题：全面突破 vivo NEX

导语：“算力终将同质化，感知才是护城河”

从2023年开始，三年时间，中国科技产业开启了所谓的"大模型狂飙时代"。

自ChatGPT引爆全球AI热潮以来，中国科技行业迅速陷入了一场前所未有的集体焦虑。从互联网巨头到传统制造业，从手机厂商到汽车新势力，都试图与"大模型"或"生成式AI"概念建立关联，参数规模从千亿跃升至万亿，战略合作的签署仪式频繁见报。

DeepSeek的爆火恰好再次印证了这一观点，在行业落地方向尚未明确时，各行各业均选择了“先上车后补票”的方式乘上这趟“快车”。

不可否认的是，AI是现今科技产业最重要的发展方向之一，但在这场集体性的非理性繁荣中，冷静思考变成了一件奢侈的事，毕竟没有人愿意被贴上"错过AI时代"的标签，哪怕这种焦虑的来源本身就是对技术变革的过度反应。

今年春节开始，OpenClaw又掀起了一阵AI热潮，只是在短暂的繁荣后，热度又开始悄然退下。这是每一个新技术的终局，同样也是对技术浮躁、焦虑的代价。如何让AI理解世界、理解用户、理解任务，这些基础问题仍没有人做出回答。

这是一个需要长期投入、难以短期变现、无法靠发布会解决的问题。正因如此，大多数企业选择回避，转而将资源投入到更具传播效应的"追热点"策略中。

vivo是少数选择正面回答这个问题的企业。

2026年3月，博鳌亚洲论坛。vivo总裁、首席运营官胡柏山在演讲中明确表示："我们把核心资源聚焦在端侧AI和产业链协同，思考用户在AI时代真正需要什么样的体验。"

这番表述可以视为一家成熟企业对技术趋势的理性判断。

如果我们仔细审视vivo过去五年的技术布局和战略选择，会发现这家企业正在下一盘远比"发布大模型"更为深远的大棋：感知能力赛道。

感知能力，是vivo对"AI时代竞争核心"这个问题的回答。

感知能力为什么是AI时代的竞争核心？

"在未来AI时代，算力、模型能力不具备差异化"。胡柏山的判断，也是vivo感知战略的决策基础。

在vivo看来，随着芯片工艺持续进步和模型架构不断优化，算力和模型能力将会供应链化，每个手机厂商都有更多选择权，不再构成竞争壁垒，而这一点也正在被行业验证。

2024年至2026年间，联发科、高通、苹果、三星等主流芯片厂商的旗舰SoC在AI算力上持续快速提升。与此同时，高通骁龙系列、苹果A系列的自研神经网络引擎也在同步演进。这意味着，端侧AI的算力基础正在快速走向同质化。

在模型层面，开源社区的贡献同样不可忽视。Meta的Llama系列、Google的Gemma系列、阿里云的Qwen系列等开源大模型，已经能够提供接近闭源模型的性能表现，且授权费用极低。对于手机厂商而言，基于开源模型进行微调，正在成为一条可行的技术路径。

一个逻辑是，当算力和模型都不再是稀缺资源，企业就必须寻找新的差异化方向。vivo给出的答案是：以影像为基础，构建AI落地物理世界的视觉感知中枢。

今年开始，vivo内部就已经对感知赛道进行立项，核心是把视觉、听觉、触觉等感知，通过传感器加以感知大模型，转化成AI想要得到的物理世界的信息。

所谓"数字世界连接物理世界"，指的便是AI理解、分析、处理物理世界信息的能力。一张图片中的光影关系、一段视频里的空间结构、用户脸上的情绪变化。这些物理世界的感知信息，需要被AI"翻译"成可理解、可分析、可决策的数字信号。

胡柏山的看法是：真正的差异化，在于谁数字世界连接物理世界的能力越强，谁就越'聪明'。而这恰巧是vivo的强项所在，过去十年，vivo在影像上做了巨大投入，除了让照片变得更好看，同样也是在建立一套完整的物理世界感知系统。

这套感知系统的技术架构，包含三层架构：

第一层是光学系统——镜头光学设计、镀膜工艺、光学防抖等技术，决定了"看得到"的边界。vivo与蔡司的深度合作，正是这一层的战略投资，双方持续在光学设计、镀膜工艺、色彩科学等领域深化合作。

第二层是成像处理——ISP算法、HDR融合、多帧降噪、色彩科学等技术，决定了"看得清"的能力。vivo自研的V3影像芯片，专门针对这一层进行了算力优化。V3采用了先进的6nm制程工艺，AI算力相比前代提升40%，能够支持4K级别的实时画面增强。

第三层是感知理解——场景识别、语义分割、空间建模、情绪感知等AI能力，决定了"看得懂"的深度。这是vivo感知战略的核心差异化所在。在这一层，vivo的蓝心大模型矩阵发挥着关键作用。蓝心大模型是vivo自主研发的多模态AI模型系列，能够对图像和视频内容进行深度理解，识别物体、场景、关系、情绪等多维信息。

三层能力的叠加，使vivo的手机成为一台真正意义上的"物理世界感知终端"。当用户举起手机拍照时，不仅在记录一个瞬间，更是在让AI"观察"和"理解"当前的物理场景。

这种感知能力的长期价值，远超一款手机的功能升级。vivo认为，当未来AI真正深入到千行百业时，具备强大感知能力的终端将成为最重要的数据入口，这也意味着感知能力赛道的竞争，已经悄然开始。（雷峰网）

vivo的Agent Phone蓝图

在博鳌亚洲论坛，胡柏山指出——Smart Phone 将进化成Agent Phone。

什么是Agent Phone？用vivo的理解，这是一种能够主动理解用户需求、自动完成任务、智能调度服务的下一代智能手机。

这与"智能手机"有着本质区别。智能手机的核心是"工具"：人使用手机来处理任务、获取信息，手机始终处于"被动响应"的状态。但Agent Phone的核心是"伙伴"：手机主动感知环境、理解需求、预判行动，成为真正懂你的智能代理。

这个转变的关键驱动力，依然是感知能力。

当前智能手机的交互逻辑，本质上是"输入-反馈"模式：用户发出指令，手机执行并返回结果。整条交互链路是离散的、事件驱动的。但Agent Phone的交互逻辑将是"感知-理解-行动"：手机持续感知环境和用户状态，在后台构建对当前场景的深度理解，然后主动提供最合适的响应和服务。

vivo对于Agent Phone有着超前的理解，但距离落地仍有许多现实问题需要解决。

首先是意图理解，手机需要从用户的模糊表述甚至无表述行为中，准确推断用户的真实意图。这要求端侧AI具备强大的上下文理解能力和长程记忆能力，能够综合用户的历史行为、当前位置、时间状态、日程安排等多维信息进行综合判断。

其次是任务规划能力，当确认用户意图后，手机需要自动拆解任务步骤、调用相关App和数据、在后台完成复杂操作流程，并在必要时向用户确认关键决策。这需要手机具备跨App、跨服务的任务编排能力。

最后是隐私边界问题，在 vivo 看来这是不可逾越的底座。主动服务意味着手机需要持续感知和分析用户状态，Agent Phone需要在隐私保护和服务能力之间找到平衡点，做到既能提供足够智能的服务，又要确保用户对数据的控制权。

vivo的解法是将感知和推理过程尽可能保留在端侧。胡柏山透露，vivo正在与芯片厂商、算法公司、学术机构深度合作，共同定义面向端侧AI的新一代算力架构。"单靠手机厂商自己做不了端侧AI，必须拉着产业链一起做。"

与Arm 建立联合实验室，与联发科从底层硬件到软件的多层面联合研发,包括性能、AI、影像、游戏、通讯还有多媒体等各个领域；而在学术层面，vivo与清华大学、北京大学、上海交通大学等高校建立了深度合作关系，在端侧AI的基础研究上持续投入。

Agent Phone的底层支撑，是端侧AI的意图理解能力和感知系统对环境的实时建模。两者的结合，使手机能够在本地完成对用户需求的理解、规划和执行，既保证了响应速度，又保护了用户隐私。

vivo在博鳌论坛上宣布，搭载相机Agent能力的新一代旗舰机型X300 Ultra 与X300s即将发布。除了专业的影像能力进一步提升，从某种程度来说，这也是Agent Phone的阶段性成果展示。

但胡柏山明确表示，Agent Phone只是起点，不是终点。

"X300 Ultra会展示Agent Phone的核心能力，但它还不是终极形态。"他在专访中透露，"真正的Agent Phone需要感知能力、端侧AI、IoT生态的完整配合，这需要一个更长的建设周期。"

在vivo的战略蓝图里，感知能力的价值远不止于手机。

用感知，成为IoT生态的“眼睛”

在vivo的生态蓝图里，手机不是终点，而是起点。用胡柏山的话："以影像+AI构建的视觉感知中枢，可以升级为IoT生态的视觉感知中枢。"

在vivo看来，IoT行业有着难以解决的问题，单个智能化设备的感知过于片面，最终导致这些设备都缺乏一个共同的"感知中枢"来整合多维信息、构建统一理解。vivo认为，手机可以承担这个角色。

当手机具备强大的视觉感知能力，它可以成为IoT生态的"眼睛"——通过与各类IoT设备的互联互通，汇聚来自不同维度、不同位置、不同视角的感知信息，形成对用户生活场景的完整理解。

"你的手机看到你在客厅，它就知道你的电视、音箱、空调应该怎么调整。"胡柏山举例道，"但这只是第一步。未来，手机的感知能力会延伸到更多品类，让更多设备'看见'这个世界。"

这种"感知延伸"的战略，需要新的产品形态作为载体。

去年，vivo成立了机器人Lab，其成员来自无人机、计算机视觉、自动控制、机械工程等多个领域，研究包括室内环境的三维重建、动态障碍物的识别与规避、人体姿态的精细感知等核心技术。

而这个机器人实验室的首要目标并非打造一款面向C端的消费级机器人，而是专注于感知能力的技术突破，

"vivo做机器人，核心还是围绕感知能力。"胡柏山表示，手机积累的影像技术、AI算法、人机交互理解，都会成为机器人的基础。但更重要的是，机器人会成为vivo感知生态的延伸，让vivo在更多场景、更大范围内建立感知优势。

这种感知能力的生态外溢，最终将超出消费电子的边界。

"感知能力的价值，在于它能为多少行业创造多少价值。"胡柏山说到，"这是vivo作为一家中国科技企业，应该承担的产业责任。"

这种产业责任的承担，需要长期投入和战略定力作为支撑，而vivo的感知战略，本质上就是一场关于"长期主义"的实践。

这条路线的代价是沉重的。感知能力的构建需要五年、十年的持续投入，短期内难以看到显著回报。当竞争对手靠"追热点"收割流量和资本时，vivo必须承受战略定力带来的寂寞。当友商不断发布"震撼业界"的新产品时，vivo只能埋头做技术攻关。

但vivo选择相信：时间会犒赏那些愿意下笨功夫的企业。在博鳌论坛上，胡柏山引用了老子《道德经》中的一句话："企者不立，跨者不行"，vivo的每一步，都走得扎实。

在行业普遍焦虑的时代，保持战略定力本身就是一种稀缺能力。当AI时代真正进入深水区，vivo在感知能力上的长期积累，将成为它最坚实的壁垒。

这是vivo的押注，也是它的底牌。（雷峰网(公众号：雷峰网)）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

专题

全面突破 vivo NEX

本专题其他文章

马广宇

主笔

发私信

当月热门文章