AI重塑手机，vivo的「非颠覆式」创新答卷

2024-10-12数码

在vivo开发者大会（VDC）开幕的几个月前，vivo的研发团队在深圳福田的办公室测试了一项新功能：让手机内置的AI智能体像人一样订餐厅。

和大部分AI应用不同，研发团队设计了一个大胆的构想：用户通过文本或语音下达指令，AI可以像真实用户一样，自己打开App，搜索并选择对应的餐厅，自行拨打餐厅电话订位。整个流程在用户看来，就像有一只看不见的手在操作手机。

一旦这个设想可以实现，理论上人在手机上能完成的操作，都可以交给AI完成。

vivo的思路是从订位和点外卖这两项相对基础且高频的场景开始。在点咖啡这个功能中，AI像人一样熟练的进入了商家小程序，按照指令选择了对应的杯型，甚至识别并关闭了促销广告。

这次技术探索，在今年10月10号召开的vivo开发者大会上首次亮相。

和去年一样，两届开发者大会的主题都是「同心同行」，但内涵却有所差异。去年vivo发布了自研的蓝心大模型与蓝河操作系统，第一次将AI兵工厂中的军火集中批量展示。一年之后，vivo打算直观的向开发者与消费者解释，复杂的参数和代码带来了什么改变。

这是vivo尝试用AI重构用户体验的365天，也是他们重新理解AI的365天。

重建规则

和许多被AlphaGo惊醒的公司一样，vivo对AI的大规模投入始于2017年。

周围是这项战略最主要的执行者，他在vivo工作了15年。2017年，周围受命带队vivo的人工智能研发团队，在这个团队组建前，他和其他高管走访了国内外各大高校，意识到学术界在人工智能上的探索，正在孕育产业化的想象空间。

ChatGPT出现后，vivo对生成式AI的投资更加坚决。相比新技术的开发，手机厂商更注重如何将新技术应用于终端产品，并带来更好的用户体验和附加值。ChatGPT像AlphaGo一样，直观的展现出了大模型的应用前景。

vivo的副总裁、OS产品副总裁、AI全球研究院院长周围

和研究机构不同，vivo是一家消费电子公司，周围则是硬件公司中软件团队的负责人。因此，他需要思考的不是单独的应用或研发项目，而是AI在公司战略中的定位，以及具体的执行策略。

在「过饱和投入」的原则下，vivo以大模型为中心，开始迅速补齐自身在底层技术环节的短板，代表性成果是去年VDC上一口气发布的三个参数量级，一共五款大模型。

2023年，vivo公布自研通用大模型矩阵「蓝心大模型」

然而，伴随自研大模型在各种榜单上频频刷脸，模型参数无止境的扩张，坐拥数十篇顶级期刊论文和数百项发明专利研发团队，却一度陷入迷茫。

同样的尴尬也发生在产业界，经历了如火如荼的百模大战，社会舆论对生成式AI的热情似乎迅速冷却。而身为AI落地最核心的终端载体，AI手机的革命性也许久停留在精心剪辑和渲染的演示视频。

2023年的VDC结束后，vivo的AI团队曾做了长时间的用户调研，希望搞清楚用户需要什么样的AI功能，但答案不外乎两类：一种是用户自己也说不清楚；另一种是过于超前，放在五十年后都属于科幻电影的素材。

作为团队负责人，周围带队技术攻坚的履历无可指摘，但面对难以量化极度朦胧的用户需求，他也需要反复思考。

一个关键问题是，除了少数经典的钉子户机型，市场上大部分手机，实际上都是货真价实的「AI手机」。

最典型的例子是苹果在2019年推出Deep Fusion：用户按下快门键拍照时，iPhone其实在短时间内连拍了9张照片，算法会在不到1秒的时间里，将这些照片「像素对像素」的精确叠合，最终合成一张最优质照片。

从2017年的A11处理器集成NPU（Neural network Processing Unit）模块开始，AI就迅速介入了手机中大大小小的功能服务，从翻译、修图到相册检索与推荐算法，只要不是太老的手机，基本都拥有从软件到硬件完整的AI功能。

A11处理器中首次出现了NPU

在这个背景下，如果要让AI脱离对原有功能本身的强化，而是塑造全新的改变，需要的是研发、组织和管理体系的重整。

2022年之前，vivo的研发思路是以功能性模块为基本单元，将分散在操作系统的各个功能分门别类进行开发。比如开发文档扫描、证件扫描、文字提取等功能，然后集成在相机、相册等系统功能里。第三方开发者也可以通过接口，开发各种功能性模块。

而当大模型以一种通用技术底层的形态出现，周围意识到类似「项目制」的研发策略已经难以为继，团队需要的是一个与大模型适配的「规则」，并在规则的框架下完成各种技术实现。

按照周围的说法，在没有明确应用方向的前提下，那就先给高楼打好地基，修成什么样再说。

如果说以蓝心大模型为代表的一系列底层技术是高楼的地基，那么去年VDC结束的时候，他就应该认真思考，高楼应该修成什么样了。

理解直觉，重构交互

开发者大会上，周围展示了OriginOS 5新的交互方式：用户长按屏幕会唤醒AI助手，在屏幕上圈选任意的内容，AI就会开始识别选定内容。用户将圈定内容拖动，AI会根据目标应用提供下一步服务。

OriginOS 5中，AI接入拖拽交互

按压、圈选、拖放是智能机时代用户早已习惯的交互逻辑，设备会根据预先设定好的交互逻辑完成对应的操作。但多模态大模型可以通过训练理解用户各种动作背后的意图，周围的目标是基于大模型的能力，构建一种新的交互规则。

vivo的企业文化中，有一条是虚心学习其他公司的长处，苹果之类的优秀公司，一直是其内部反复研究的对象。

iPhone并不是第一个采用触摸屏的手机，但它与功能机的差别在于，后者只是将物理按键的交互逻辑原封不动的转移到了触摸屏上。而苹果基于触摸这个交互方式，重新定义了一套交互逻辑。

举例来说，带有触摸屏的功能机在执行返回操作时，只是在屏幕上添加了一个可以触摸的返回按钮，但iPhone设计了滑动返回的交互逻辑。配合其他的零部件，开发者基于全新的交互逻辑，创造了水果忍者和愤怒的小鸟。

周围把基于新技术构建的交互逻辑称为「规则」，他提炼出的关键词是「直觉」。

vivo在多年前组建了一个算法团队，试图通过算法让用户拍出来的照片更美。但「美」这个字难倒了整座办公楼的算法工程师——什么是美？

把飘渺的词汇变成可以感知的产品是消费电子公司的核心工作，vivo内部「影像认知部」的成立很大程度来源于此，这个部门专门负责定义影像的「美」，接着由算法或硬件部门把这种审美技术实现，成为消费者可以使用的功能。

在AI团队的搭建过程中，vivo遇到了类似的问题——作为负责人，周围需要把复杂的用户需求和设计蓝图高度抽象，同时要确保抽象的概念能准确指引团队的研发流程。

除了AI，周围还负责Origin OS的开发和迭代，过去几年，他对系统研发的提出的一个词语是「流畅」，这个词又可以衍生出刷新率、图层等一系列技术指标，指引团队的开发。

过去一年里，周围想了很多词来概括自己脑海中关于AI那个不太清晰的概念，比如自然、优雅等等，但他认为最贴切的是「直觉」，即「这件事应该是这样的」——手指收拢图像会缩小，手指张开页面会放大。

依照这个原则，vivo的开发团队想到了一个方向：AI 可以像人一样操作手机，像人一样打开App，选择菜单和功能，而不是通过各种各样的后台接口。

让AI帮用户买咖啡，是研发团队在这个方向指引下一次大胆的探索。周围称之为「手机智能体」，相比原有功能的强化，手机智能体的核心是基于用户的习惯和意图，可以主动进行识别与操作。

在开发者大会的演讲中，周围把手机智能体和自动驾驶类比，两者的确存在相同之处。

特斯拉对纯视觉技术路线的执着固然有成本的考量，但依照马斯克频繁念叨的第一性原理，既然人类驾驶员依靠视觉就能判断距离，那么只要有足够大的训练量，算法也可以依靠摄像头作出判断，不需要雷达的辅助。

这种相似性反映也启发了vivo的思路：利用 AI 创造新的交互方式，但这种交互没有破坏用户原有的、早已习惯的交互逻辑。

2019年，周围曾提出了一个大胆的设想：让AI成为真正的智能助手，扮演手机和App之间的一个重要角色。这个思路与后来AGI的构想相当类似，只是在当时过于超前。

但今天，vivo离他们的目标已经非常接近了。

挖足够深的地基

去年7月，【纽约时报】曾探访谷歌实验室，完整记录了基于RT-2模型的机器人智能闪现的瞬间：

桌子上放着恐龙、鲸鱼、狮子三个塑料玩具，工程师让单臂机器人「捡起灭绝的动物」，机器人拿起了恐龙。这里的难点不是机器人的抓取动作，而是它能识别三种动物，还能理解什么是「灭绝的动物」。

基于RT-2模型的Google机器人

周围将AI带给手机最大的改变概括为「系统记忆能力」，即AI不仅能执行用户的指令，还可以理解用户的行为。在今年开发者大会现场，他举了一个与谷歌机器人类似的例子：

用户可以对AI助手说，找出去年我和小贝在北京环球影城的照片，祝他生日快乐。

核心问题在于，AI需要理解「北京」和「环球影城」的含义，并在相册中准确的识别，而不是检索手机中文件名包含「北京」和「环球影城」两个关键词的文件。同样，AI还要理解「小贝」是谁，把照片和通讯录里的号码对应起来。

OriginOS 5中，由AI完成的图像记忆

这些设想伴随多模态大模型的出现已经不是问题，但对一家手机公司来说，把论文和代码变成可以使用的功能远没有那么简单。

首当其冲的是隐私问题——模型会读取用户的隐私数据，意味着关键数据和算法无法在云端处理，继而对手机性能提出了挑战，也是vivo「蓝科技」矩阵中多个技术方案诞生的契机。

2021年，vivo与联发科达成战略级技术合作，对vivo自研影像芯片V1和联发科当时的旗舰移动处理器天玑9000测试联调，目的在于提高两者的兼容性，最大程度释放两者性能。

随后，双方的合作成为了「蓝科技」板块之一「蓝晶芯片技术栈」，研发重心也转向了以更强的算力和更低的功耗，并在软件层面提高对算力的利用效率，保证大模型在终端的正常运作。

与之对应，vivo通过蓝河操作系统，让大模型融入系统的底层设计中，实现从应用到工具链的全方位突破。

今年的开发者大会，vivo公布蓝河操作系统2

今年的开发者大会上，vivo发布了新的30亿参数蓝心端侧大模型3B，思路依然是基于30亿参数这个端侧大模型「黄金尺寸」，在确保隐私安全的前提下，保证终端的用户体验。

暂时抛开「蓝晶」、「蓝心」、「蓝河」这些传播用途的修饰，vivo呈现出的是以一种系统性的软硬件研发能力，来指引各个技术条线的研发。

何为系统性的软硬件结合？即通过软硬件的协同能力，提高产品真实的体验而非单纯的参数。

2020年之前，手机品牌的技术投资趋势，大多体现为借助零部件更新增加产品卖点。大多数品牌的研发策略都开始向体系化的创新转变。

举例来说，当相机像素堆到5000万甚至1亿以上，对于拍照体验的改善会快速递减。此时，产品开发思路将注意力转向算法，通过降低快门延迟、加快成像速度等提高拍照性能。边际递减同样出现在快充场景，品牌们不约而同掏出曾经的120W快充，反而借助软件的运行策略的优化来降低功耗。

在开发者大会上亮相的OriginOS 5、蓝河操作系统2和升级后的蓝心大模型，也是这一转变的体现。

vivo的「蓝科技」矩阵

一座5层的建筑，需要一场誓师大会和工程师们大干三个月，但一幢百层的高楼，起决定作用的是地基的深度。

2024年的开发者大会上，vivo展示了这座大厦第一层的模样。

尾声

开发者大会开始前，周围曾提醒同事，团队对「手机智能体」的定位不是颠覆或革命，而是一种「探索」。

产业界喜欢把技术创新的长期主义形容为马拉松，其实不完全准确。因为马拉松有规划完整的路线和清晰明确的终点，但创新往往既无线路可寻，也没有明确的目标以供参考。

长期主义是vivo管理层很多决策的出发点，他们同时创造了一个非常vivo特色，也更贴切的词汇：埋头种因。

在无法预知终点的长跑中，大部分可量化的目标都没有意义。而大多数看似横空出世的创新，往往都是在反复的探索中，一点点描摹出来的。

全文完，感谢您的耐心阅读。

作者：李墨天

编辑：张泽一

视觉设计：疏睿

责任编辑：李墨天