AI重塑手機，vivo的「非顛覆式」創新答卷

2024-10-12數位

在vivo開發者大會（VDC）開幕的幾個月前，vivo的研發團隊在深圳福田的辦公室測試了一項新功能：讓手機內建的AI智慧體像人一樣訂餐廳。

和大部份AI套用不同，研發團隊設計了一個大膽的構想：使用者透過文本或語音下達指令，AI可以像真實使用者一樣，自己開啟App，搜尋並選擇對應的餐廳，自行撥打餐廳電話訂位。整個流程在使用者看來，就像有一只看不見的手在操作手機。

一旦這個設想可以實作，理論上人在手機上能完成的操作，都可以交給AI完成。

vivo的思路是從訂位和點外賣這兩項相對基礎且高頻的場景開始。在點咖啡這個功能中，AI像人一樣熟練的進入了商家小程式，按照指令選擇了對應的杯型，甚至辨識並關閉了促銷廣告。

這次技術探索，在今年10月10號召開的vivo開發者大會上首次亮相。

和去年一樣，兩屆開發者大會的主題都是「同心同行」，但內涵卻有所差異。去年vivo釋出了自研的藍心大模型與藍河作業系統，第一次將AI兵工廠中的軍火集中批次展示。一年之後，vivo打算直觀的向開發者與消費者解釋，復雜的參數和程式碼帶來了什麽改變。

這是vivo嘗試用AI重構使用者體驗的365天，也是他們重新理解AI的365天。

重建規則

和許多被AlphaGo驚醒的公司一樣，vivo對AI的大規模投入始於2017年。

周圍是這項戰略最主要的執行者，他在vivo工作了15年。2017年，周圍受命帶隊vivo的人工智慧研發團隊，在這個團隊組建前，他和其他高管走訪了國內外各大高校，意識到學術界在人工智慧上的探索，正在孕育產業化的想象空間。

ChatGPT出現後，vivo對生成式AI的投資更加堅決。相比新技術的開發，手機廠商更註重如何將新技術套用於終端產品，並帶來更好的使用者體驗和附加值。ChatGPT像AlphaGo一樣，直觀的展現出了大模型的套用前景。

vivo的副總裁、OS產品副總裁、AI全球研究院院長周圍

和研究機構不同，vivo是一家消費電子公司，周圍則是硬體公司中軟體團隊的負責人。因此，他需要思考的不是單獨的套用或研發計畫，而是AI在公司戰略中的定位，以及具體的執行策略。

在「過飽和投入」的原則下，vivo以大模型為中心，開始迅速補齊自身在底層技術環節的短板，代表性成果是去年VDC上一口氣釋出的三個參數量級，一共五款大模型。

2023年，vivo公布自研通用大模型矩陣「藍心大模型」

然而，伴隨自研大模型在各種榜單上頻頻刷臉，模型參數無止境的擴張，坐擁數十篇頂級期刊論文和數百項發明專利研發團隊，卻一度陷入迷茫。

同樣的尷尬也發生在產業界，經歷了如火如荼的百模大戰，社會輿論對生成式AI的熱情似乎迅速冷卻。而身為AI落地最核心的終端載體，AI手機的革命性也許久停留在精心剪輯和渲染的演示視訊。

2023年的VDC結束後，vivo的AI團隊曾做了長時間的使用者調研，希望搞清楚使用者需要什麽樣的AI功能，但答案不外乎兩類：一種是使用者自己也說不清楚；另一種是過於超前，放在五十年後都屬於科幻電影的素材。

作為團隊負責人，周圍帶隊技術攻堅的履歷無可指摘，但面對難以量化極度朦朧的使用者需求，他也需要反復思考。

一個關鍵問題是，除了少數經典的釘子戶機型，市場上大部份手機，實際上都是貨真價實的「AI手機」。

最典型的例子是蘋果在2019年推出Deep Fusion：使用者按下快門鍵拍照時，iPhone其實在短時間內連拍了9張照片，演算法會在不到1秒的時間裏，將這些照片「像素對像素」的精確疊合，最終合成一張最優質照片。

從2017年的A11處理器整合NPU（Neural network Processing Unit）模組開始，AI就迅速介入了手機中大大小小的功能服務，從轉譯、修圖到相簿檢索與推薦演算法，只要不是太老的手機，基本都擁有從軟體到硬體完整的AI功能。

A11處理器中首次出現了NPU

在這個背景下，如果要讓AI脫離對原有功能本身的強化，而是塑造全新的改變，需要的是研發、組織和管理體系的重整。

2022年之前，vivo的研發思路是以功能性模組為基本單元，將分散在作業系統的各個功能分門別類進行開發。比如開發文件掃描、證件掃描、文字提取等功能，然後整合在相機、相簿等系統功能裏。第三方開發者也可以透過介面，開發各種功能性模組。

而當大模型以一種通用技術底層的形態出現，周圍意識到類似「計畫制」的研發策略已經難以為繼，團隊需要的是一個與大模型適配的「規則」，並在規則的框架下完成各種技術實作。

按照周圍的說法，在沒有明確套用方向的前提下，那就先給高樓打好地基，修成什麽樣再說。

如果說以藍心大模型為代表的一系列底層技術是高樓的地基，那麽去年VDC結束的時候，他就應該認真思考，高樓應該修成什麽樣了。

理解直覺，重構互動

開發者大會上，周圍展示了OriginOS 5新的互動方式：使用者長按螢幕會喚醒AI助手，在螢幕上圈選任意的內容，AI就會開始辨識選定內容。使用者將圈定內容拖動，AI會根據目標套用提供下一步服務。

OriginOS 5中，AI接入拖拽互動

按壓、圈選、拖放是智慧機時代使用者早已習慣的互動邏輯，裝置會根據預先設定好的互動邏輯完成對應的操作。但多模態大模型可以透過訓練理解使用者各種動作背後的意圖，周圍的目標是基於大模型的能力，構建一種新的互動規則。

vivo的企業文化中，有一條是虛心學習其他公司的長處，蘋果之類的優秀公司，一直是其內部反復研究的物件。

iPhone並不是第一個采用觸控式螢幕的手機，但它與功能機的差別在於，後者只是將物理按鍵的互動邏輯原封不動的轉移到了觸控式螢幕上。而蘋果基於觸摸這個互動方式，重新定義了一套互動邏輯。

舉例來說，帶有觸控式螢幕的功能機在執行返回操作時，只是在螢幕上添加了一個可以觸摸的返回按鈕，但iPhone設計了滑動返回的互動邏輯。配合其他的零部件，開發者基於全新的互動邏輯，創造了水果忍者和憤怒的小鳥。

周圍把基於新技術構建的互動邏輯稱為「規則」，他提煉出的關鍵詞是「直覺」。

vivo在多年前組建了一個演算法團隊，試圖透過演算法讓使用者拍出來的照片更美。但「美」這個字難倒了整座辦公樓的演算法工程師——什麽是美？

把飄渺的詞匯變成可以感知的產品是消費電子公司的核心工作，vivo內部「影像認知部」的成立很大程度來源於此，這個部門專門負責定義影像的「美」，接著由演算法或硬體部門把這種審美技術實作，成為消費者可以使用的功能。

在AI團隊的搭建過程中，vivo遇到了類似的問題——作為負責人，周圍需要把復雜的使用者需求和設計藍圖高度抽象，同時要確保抽象的概念能準確指引團隊的研發流程。

除了AI，周圍還負責Origin OS的開發和叠代，過去幾年，他對系統研發的提出的一個詞語是「流暢」，這個詞又可以衍生出重新整理率、圖層等一系列技術指標，指引團隊的開發。

過去一年裏，周圍想了很多詞來概括自己腦海中關於AI那個不太清晰的概念，比如自然、優雅等等，但他認為最貼切的是「直覺」，即「這件事應該是這樣的」——手指收攏影像會縮小，手指張開頁面會放大。

依照這個原則，vivo的開發團隊想到了一個方向：AI 可以像人一樣操作手機，像人一樣開啟App，選擇選單和功能，而不是透過各種各樣的後台介面。

讓AI幫使用者買咖啡，是研發團隊在這個方向指引下一次大膽的探索。周圍稱之為「手機智慧體」，相比原有功能的強化，手機智慧體的核心是基於使用者的習慣和意圖，可以主動進行辨識與操作。

在開發者大會的演講中，周圍把手機智慧體和自動駕駛類比，兩者的確存在相同之處。

特斯拉對純視覺技術路線的執著固然有成本的考量，但依照馬斯克頻繁念叨的第一性原理，既然人類駕駛員依靠視覺就能判斷距離，那麽只要有足夠大的訓練量，演算法也可以依靠網路攝影機作出判斷，不需要雷達的輔助。

這種相似性反映也啟發了vivo的思路：利用 AI 創造新的互動方式，但這種互動沒有破壞使用者原有的、早已習慣的互動邏輯。

2019年，周圍曾提出了一個大膽的設想：讓AI成為真正的智慧助手，扮演手機和App之間的一個重要角色。這個思路與後來AGI的構想相當類似，只是在當時過於超前。

但今天，vivo離他們的目標已經非常接近了。

挖足夠深的地基

去年7月，【紐約時報】曾探訪谷歌實驗室，完整記錄了基於RT-2模型的機器人智慧閃現的瞬間：

桌子上放著恐龍、柯吉拉、獅子三個塑膠玩具，工程師讓單臂機器人「撿起滅絕的動物」，機器人拿起了恐龍。這裏的難點不是機器人的抓取動作，而是它能辨識三種動物，還能理解什麽是「滅絕的動物」。

基於RT-2模型的Google機器人

周圍將AI帶給手機最大的改變概括為「系統記憶能力」，即AI不僅能執行使用者的指令，還可以理解使用者的行為。在今年開發者大會現場，他舉了一個與谷歌機器人類似的例子：

使用者可以對AI助手說，找出去年我和小貝在北京環球影城的照片，祝他生日快樂。

核心問題在於，AI需要理解「北京」和「環球影城」的含義，並在相簿中準確的辨識，而不是檢索手機中檔名包含「北京」和「環球影城」兩個關鍵詞的檔。同樣，AI還要理解「小貝」是誰，把照片和通訊錄裏的號碼對應起來。

OriginOS 5中，由AI完成的影像記憶

這些設想伴隨多模態大模型的出現已經不是問題，但對一家手機公司來說，把論文和程式碼變成可以使用的功能遠沒有那麽簡單。

首當其沖的是私密問題——模型會讀取使用者的私密數據，意味著關鍵數據和演算法無法在雲端處理，繼而對手機效能提出了挑戰，也是vivo「藍科技」矩陣中多個技術方案誕生的契機。

2021年，vivo與聯發科達成戰略級技術合作，對vivo自研影像芯片V1和聯發科當時的旗艦移動處理器天璣9000測試聯調，目的在於提高兩者的相容性，最大程度釋放兩者效能。

隨後，雙方的合作成為了「藍科技」板塊之一「藍晶芯片技術棧」，研發重心也轉向了以更強的算力和更低的功耗，並在軟體層面提高對算力的利用效率，保證大模型在終端的正常運作。

與之對應，vivo透過藍河作業系統，讓大模型融入系統的底層設計中，實作從套用到工具鏈的全方位突破。

今年的開發者大會，vivo公布藍河作業系統2

今年的開發者大會上，vivo釋出了新的30億參數藍心端側大模型3B，思路依然是基於30億參數這個端側大模型「黃金尺寸」，在確保私密安全的前提下，保證終端的使用者體驗。

暫時拋開「藍晶」、「藍心」、「藍河」這些傳播用途的修飾，vivo呈現出的是以一種系統性的軟硬體研發能力，來指引各個技術條線的研發。

何為系統性的軟硬體結合？即透過軟硬體的協同能力，提高產品真實的體驗而非單純的參數。

2020年之前，手機品牌的技術投資趨勢，大多體現為借助零部件更新增加產品賣點。大多數品牌的研發策略都開始向體系化的創新轉變。

舉例來說，當相機像素堆到5000萬甚至1億以上，對於拍照體驗的改善會快速遞減。此時，產品開發思路將註意力轉向演算法，透過降低快門延遲、加快成像速度等提高拍照效能。邊際遞減同樣出現在快充場景，品牌們不約而同掏出曾經的120W快充，反而借助軟體的執行策略的最佳化來降低功耗。

在開發者大會上亮相的OriginOS 5、藍河作業系統2和升級後的藍心大模型，也是這一轉變的體現。

vivo的「藍科技」矩陣

一座5層的建築，需要一場誓師大會和工程師們大幹三個月，但一幢百層的高樓，起決定作用的是地基的深度。

2024年的開發者大會上，vivo展示了這座大廈第一層的模樣。

尾聲

開發者大會開始前，周圍曾提醒同事，團隊對「手機智慧體」的定位不是顛覆或革命，而是一種「探索」。

產業界喜歡把技術創新的長期主義形容為馬拉松，其實不完全準確。因為馬拉松有規劃完整的路線和清晰明確的終點，但創新往往既無路線可尋，也沒有明確的目標以供參考。

長期主義是vivo管理層很多決策的出發點，他們同時創造了一個非常vivo特色，也更貼切的詞匯：埋頭種因。

在無法預知終點的長跑中，大部份可量化的目標都沒有意義。而大多數看似橫空出世的創新，往往都是在反復的探索中，一點點描摹出來的。

全文完，感謝您的耐心閱讀。

作者：李墨天

編輯：張澤一

視覺設計：疏睿

責任編輯：李墨天