在vivo開發者大會(VDC)開幕的幾個月前,vivo的研發團隊在深圳福田的辦公室測試了一項新功能:讓手機內建的AI智能體像人一樣訂餐廳。
和大部份AI套用不同,研發團隊設計了一個大膽的構想:使用者透過文本或語音下達指令,AI可以像真實使用者一樣,自己開啟App,搜尋並選擇對應的餐廳,自行撥打餐廳電話訂位。整個流程在使用者看來,就像有一只看不見的手在操作手機。
一旦這個設想可以實作,理論上人在手機上能完成的操作,都可以交給AI完成。
vivo的思路是從訂位和點外賣這兩項相對基礎且高頻的場景開始。在點咖啡這個功能中,AI像人一樣熟練的進入了商家小程式,按照指令選擇了對應的杯型,甚至辨識並關閉了促銷廣告。
這次技術探索,在今年10月10號召開的vivo開發者大會上首次亮相。
和去年一樣,兩屆開發者大會的主題都是「同心同行」,但內涵卻有所差異。去年vivo釋出了自研的藍心大模型與藍河作業系統,第一次將AI兵工廠中的軍火集中批次展示。一年之後,vivo打算直觀的向開發者與消費者解釋,復雜的參數和程式碼帶來了什麽改變。
這是vivo嘗試用AI重構使用者體驗的365天,也是他們重新理解AI的365天。
重建規則
和許多被AlphaGo驚醒的公司一樣,vivo對AI的大規模投入始於2017年。
周圍是這項戰略最主要的執行者,他在vivo工作了15年。2017年,周圍受命帶隊vivo的人工智能研發團隊,在這個團隊組建前,他和其他高管走訪了國內外各大高校,意識到學術界在人工智能上的探索,正在孕育產業化的想象空間。
ChatGPT出現後,vivo對生成式AI的投資更加堅決。相比新技術的開發,手機廠商更註重如何將新技術套用於終端產品,並帶來更好的使用者體驗和附加值。ChatGPT像AlphaGo一樣,直觀的展現出了大模型的套用前景。
vivo的副總裁、OS產品副總裁、AI全球研究院院長周圍
和研究機構不同,vivo是一家消費電子公司,周圍則是硬件公司中軟件團隊的負責人。因此,他需要思考的不是單獨的套用或研發專案,而是AI在公司戰略中的定位,以及具體的執行策略。
在「過飽和投入」的原則下,vivo以大模型為中心,開始迅速補齊自身在底層技術環節的短板,代表性成果是去年VDC上一口氣釋出的三個參數量級,一共五款大模型。
2023年,vivo公布自研通用大模型矩陣「藍心大模型」
然而,伴隨自研大模型在各種榜單上頻頻刷臉,模型參數無止境的擴張,坐擁數十篇頂級期刊論文和數百項發明專利研發團隊,卻一度陷入迷茫。
同樣的尷尬也發生在產業界,經歷了如火如荼的百模大戰,社會輿論對生成式AI的熱情似乎迅速冷卻。而身為AI落地最核心的終端載體,AI手機的革命性也許久停留在精心剪輯和渲染的演示影片。
2023年的VDC結束後,vivo的AI團隊曾做了長時間的使用者調研,希望搞清楚使用者需要什麽樣的AI功能,但答案不外乎兩類:一種是使用者自己也說不清楚;另一種是過於超前,放在五十年後都屬於科幻電影的素材。
作為團隊負責人,周圍帶隊技術攻堅的履歷無可指摘,但面對難以量化極度朦朧的使用者需求,他也需要反復思考。
一個關鍵問題是,除了少數經典的釘子戶機型,市場上大部份手機,實際上都是貨真價實的「AI手機」。
最典型的例子是蘋果在2019年推出Deep Fusion:使用者按下快門鍵拍照時,iPhone其實在短時間內連拍了9張照片,演算法會在不到1秒的時間裏,將這些照片「像素對像素」的精確疊合,最終合成一張最優質照片。
從2017年的A11處理器整合NPU(Neural network Processing Unit)模組開始,AI就迅速介入了手機中大大小小的功能服務,從轉譯、修圖到相簿檢索與推薦演算法,只要不是太老的手機,基本都擁有從軟件到硬件完整的AI功能。
A11處理器中首次出現了NPU
在這個背景下,如果要讓AI脫離對原有功能本身的強化,而是塑造全新的改變,需要的是研發、組織和管理體系的重整。
2022年之前,vivo的研發思路是以功能性模組為基本單元,將分散在作業系統的各個功能分門別類進行開發。比如開發文件掃描、證件掃描、文字提取等功能,然後整合在相機、相簿等系統功能裏。第三方開發者也可以透過介面,開發各種功能性模組。
而當大模型以一種通用技術底層的形態出現,周圍意識到類似「專案制」的研發策略已經難以為繼,團隊需要的是一個與大模型適配的「規則」,並在規則的框架下完成各種技術實作。
按照周圍的說法,在沒有明確套用方向的前提下,那就先給高樓打好地基,修成什麽樣再說。
如果說以藍心大模型為代表的一系列底層技術是高樓的地基,那麽去年VDC結束的時候,他就應該認真思考,高樓應該修成什麽樣了。
理解直覺,重構互動
開發者大會上,周圍展示了OriginOS 5新的互動方式:使用者長按螢幕會喚醒AI助手,在螢幕上圈選任意的內容,AI就會開始辨識選定內容。使用者將圈定內容拖動,AI會根據目標套用提供下一步服務。
OriginOS 5中,AI接入拖拽互動
按壓、圈選、拖放是智能機時代使用者早已習慣的互動邏輯,器材會根據預先設定好的互動邏輯完成對應的操作。但多模態大模型可以透過訓練理解使用者各種動作背後的意圖,周圍的目標是基於大模型的能力,構建一種新的互動規則。
vivo的企業文化中,有一條是虛心學習其他公司的長處,蘋果之類的優秀公司,一直是其內部反復研究的物件。
iPhone並不是第一個采用輕觸式熒幕的手機,但它與功能機的差別在於,後者只是將物理按鍵的互動邏輯原封不動的轉移到了輕觸式熒幕上。而蘋果基於觸摸這個互動方式,重新定義了一套互動邏輯。
舉例來說,帶有輕觸式熒幕的功能機在執行返回操作時,只是在螢幕上添加了一個可以觸摸的返回按鈕,但iPhone設計了滑動返回的互動邏輯。配合其他的零部件,開發者基於全新的互動邏輯,創造了水果忍者和憤怒的小鳥。
周圍把基於新技術構建的互動邏輯稱為「規則」,他提煉出的關鍵詞是「直覺」。
vivo在多年前組建了一個演算法團隊,試圖透過演算法讓使用者拍出來的照片更美。但「美」這個字難倒了整座辦公樓的演算法工程師——什麽是美?
把飄渺的詞匯變成可以感知的產品是消費電子公司的核心工作,vivo內部「影像認知部」的成立很大程度來源於此,這個部門專門負責定義影像的「美」,接著由演算法或硬件部門把這種審美技術實作,成為消費者可以使用的功能。
在AI團隊的搭建過程中,vivo遇到了類似的問題——作為負責人,周圍需要把復雜的使用者需求和設計藍圖高度抽象,同時要確保抽象的概念能準確指引團隊的研發流程。
除了AI,周圍還負責Origin OS的開發和叠代,過去幾年,他對系統研發的提出的一個詞語是「流暢」,這個詞又可以衍生出重新整理率、圖層等一系列技術指標,指引團隊的開發。
過去一年裏,周圍想了很多詞來概括自己腦海中關於AI那個不太清晰的概念,比如自然、優雅等等,但他認為最貼切的是「直覺」,即「這件事應該是這樣的」——手指收攏影像會縮小,手指張開頁面會放大。
依照這個原則,vivo的開發團隊想到了一個方向:AI
可以像人一樣操作手機,像人一樣開啟App,選擇選單和功能,而不是透過各種各樣的後台介面。
讓AI幫使用者買咖啡,是研發團隊在這個方向指引下一次大膽的探索。周圍稱之為「手機智能體」,相比原有功能的強化,手機智能體的核心是基於使用者的習慣和意圖,可以主動進行辨識與操作。
在開發者大會的演講中,周圍把手機智能體和自動駕駛類比,兩者的確存在相同之處。
特斯拉對純視覺技術路線的執著固然有成本的考量,但依照馬斯克頻繁念叨的第一性原理,既然人類駕駛員依靠視覺就能判斷距離,那麽只要有足夠大的訓練量,演算法也可以依靠網絡攝影機作出判斷,不需要雷達的輔助。
這種相似性反映也啟發了vivo的思路:利用
AI
創造新的互動方式,但這種互動沒有破壞使用者原有的、早已習慣的互動邏輯。
2019年,周圍曾提出了一個大膽的設想:讓AI成為真正的智能助手,扮演手機和App之間的一個重要角色。這個思路與後來AGI的構想相當類似,只是在當時過於超前。
但今天,vivo離他們的目標已經非常接近了。
挖足夠深的地基
去年7月,【紐約時報】曾探訪谷歌實驗室, 完整記錄了基於RT-2模型的機器人智能閃現的瞬間:
桌子上放著恐龍、鯨魚、獅子三個塑膠玩具,工程師讓單臂機器人「撿起滅絕的動物」,機器人拿起了恐龍。這裏的難點不是機器人的抓取動作,而是它能辨識三種動物,還能理解什麽是「滅絕的動物」。
基於RT-2模型的Google機器人
周圍將AI帶給手機最大的改變概括為「系統記憶能力」,即AI不僅能執行使用者的指令,還可以理解使用者的行為。在今年開發者大會現場,他舉了一個與谷歌機器人類似的例子:
使用者可以對AI助手說,找出去年我和小貝在北京環球影城的照片,祝他生日快樂。
核心問題在於,AI需要理解「北京」和「環球影城」的含義,並在相簿中準確的辨識,而不是檢索手機中檔名包含「北京」和「環球影城」兩個關鍵詞的檔。同樣,AI還要理解「小貝」是誰,把照片和通訊錄裏的號碼對應起來。
OriginOS 5中,由AI完成的影像記憶
這些設想伴隨多模態大模型的出現已經不是問題,但對一家手機公司來說,把論文和程式碼變成可以使用的功能遠沒有那麽簡單。
首當其沖的是私密問題——模型會讀取使用者的私密數據,意味著關鍵數據和演算法無法在雲端處理,繼而對手機效能提出了挑戰,也是vivo「藍科技」矩陣中多個技術方案誕生的契機。
2021年,vivo與聯發科達成戰略級技術合作,對vivo自研影像芯片V1和聯發科當時的旗艦移動處理器天璣9000測試聯調,目的在於提高兩者的相容性,最大程度釋放兩者效能。
隨後,雙方的合作成為了「藍科技」板塊之一「藍晶芯片技術棧」,研發重心也轉向了以更強的算力和更低的功耗,並在軟件層面提高對算力的利用效率,保證大模型在終端的正常運作。
與之對應,vivo透過藍河作業系統,讓大模型融入系統的底層設計中,實作從套用到工具鏈的全方位突破。
今年的開發者大會,vivo公布藍河作業系統2
今年的開發者大會上,vivo釋出了新的30億參數藍心端側大模型3B,思路依然是基於30億參數這個端側大模型「黃金尺寸」,在確保私密安全的前提下,保證終端的使用者體驗。
暫時拋開「藍晶」、「藍心」、「藍河」這些傳播用途的修飾,vivo呈現出的是以一種系統性的軟硬件研發能力,來指引各個技術條線的研發。
何為系統性的軟硬件結合?即透過軟硬件的協同能力,提高產品真實的體驗而非單純的參數。
2020年之前,手機品牌的技術投資趨勢,大多體現為借助零部件更新增加產品賣點。大多數品牌的研發策略都開始向體系化的創新轉變。
舉例來說,當相機像素堆到5000萬甚至1億以上,對於拍照體驗的改善會快速遞減。此時,產品開發思路將註意力轉向演算法,透過降低快門延遲、加快成像速度等提高拍照效能。邊際遞減同樣出現在快充場景,品牌們不約而同掏出曾經的120W快充,反而借助軟件的執行策略的最佳化來降低功耗。
在開發者大會上亮相的OriginOS 5、藍河作業系統2和升級後的藍心大模型,也是這一轉變的體現。
vivo的「藍科技」矩陣
一座5層的建築,需要一場誓師大會和工程師們大幹三個月,但一幢百層的高樓,起決定作用的是地基的深度。
2024年的開發者大會上,vivo展示了這座大廈第一層的模樣。
尾聲
開發者大會開始前,周圍曾提醒同事,團隊對「手機智能體」的定位不是顛覆或革命,而是一種「探索」。
產業界喜歡把技術創新的長期主義形容為馬拉松,其實不完全準確。因為馬拉松有規劃完整的路線和清晰明確的終點,但創新往往既無路線可尋,也沒有明確的目標以供參考。
長期主義是vivo管理層很多決策的出發點,他們同時創造了一個非常vivo特色,也更貼切的詞匯:埋頭種因。
在無法預知終點的長跑中,大部份可量化的目標都沒有意義。而大多數看似橫空出世的創新,往往都是在反復的探索中,一點點描摹出來的。
全文完,感謝您的耐心閱讀。
作者:李墨天
編輯:張澤一
視覺設計:疏睿
責任編輯:李墨天