在放棄造車後,AI無疑就成為了空間計算之外,蘋果未來持續增長的另一個引擎。毫無意外的是,繼Android陣營友商開始造勢「AI手機」後,有傳言稱蘋果即將在今年秋季登場的iPhone 16系列和iOS 18上,AI就會占據不小的比重。就在蘋果方面3月22日剛剛發表的一篇論文中,就透露了他們的研究人員正在嘗試利用人工智慧消除智慧語音助手Siri的喚醒詞。
這篇出現在預印本網站Arxiv的論文中顯示,蘋果的研究人員使用捕獲的語音以及來自背景噪音等總計超過129小時的聲學數據,訓練了一個大型語言模型,該模型部份基於OpenAI的GPT-2構建,因為它相對輕量級,可以在智慧型手機等裝置上執行。並且相關研究人員聲稱,該模型能夠比純音訊或純文本模型做出更準確的預測,並且會隨著模型規模的擴大而進一步改進。
借助AI讓使用者不需要使用特定的「Hey Siri」喚醒詞,隨時隨地與Siri展開對話,盡管可能不如「AI手機」那樣看似高大上,但也更符合蘋果一貫審慎地在iPhone上增加新功能的策略。必須要承認的是,Siri等智慧語音助理是手機完成AI化的最佳切入點,而AI手機的理想形態,當然是將AI技術與作業系統整合,將AI的能力播灑在手機系統的每一個角落,最終達到潤物細無聲的效果。
只可惜,目前的端側大模型也僅僅只是做到了在手機上執行大模型而已,用AI賦能作業系統,並透過API來支撐不同場景、不同任務還是鏡花水月。由於現階段端側大模型與使用者下載大模型App獲得的體驗沒有質的區別,這也是為什麽現在有不少人認為「AI手機」是偽命題。所以借助智慧語音助手將AI大模型的能力提供給使用者,並成為AI觸達使用者的入口,也是當下許多手機廠商最簡單、且有效的解決方案。
五六年前,手機圈曾有過一輪智慧語音助手熱潮,諸如小愛同學、Jovi、小布、小藝等,也都曾作為新品釋出會上的主角。得益於此,用語音助手來實作AI的認知早已埋藏在消費者的腦海中,所以使用者用語音來作為媒介與AI進行自然語言對話,或許就是最符合當下普通使用者對於AI的想象。
那麽問題就來了,蘋果利用人工智慧來消除Siri的喚醒詞到底有什麽意義呢?
為什麽智慧語音助手會過氣,使用體驗不佳無疑是核心。借助Siri等語音助手用聲音來操控手機,其實是一件很有未來感的事情,此前各大廠商在釋出會上展示的效果,就已經有了科幻片中展現的未來生活範式味道。可當大家實際使用的時候卻發現,「Hey Siri,開啟抖音」、「小愛同學,打電話給張三」等操作與人類之間的對話有著明顯區別,甚至可以說喚醒詞的存在將使用者從科幻拉回了現實。
實際上,為什麽語音助手一定需要一個喚醒詞呢?從某種程度上來說,喚醒詞也成為了各廠商的招牌,是品牌形象的一個組成部份,透過每次啟用語音助手時所說出的喚醒詞,使用者關於品牌的記憶也會在這日復一日的重復中被強化。除此之外,讓語音助手一直處於啟用狀態會增加手機的功耗,進而導致使用者感知到續航下降。
為了節能,手機廠商想出了語音喚醒(keyword spotting),並透過低功耗協處理器來即時監聽麥克風,一旦監聽到類似「Hey Siri」、「小愛同學」等提前設定的喚醒詞時,就會將語音助手從休眠狀態啟用到工作狀態。就像人類用姓名來區分個體一樣,「Hey Siri」、「小愛同學」其實就是語音助手的名字。
其實語音喚醒技術的原理並不復雜,即利用聲紋辨識技術實作定向人聲分離,將人聲從復雜的環境雜訊中挑選出來,再搭配聲紋辨識編碼器,來準確分辨使用者提前錄制好的喚醒詞聲紋特征。說出喚醒詞,就和人類發起與他人談話時會叫出名字是一回事,但是人類之間的對話屬於「一次喚醒、多輪互動」,我們還可以用視線、手勢等其他感官輔助,讓他人知道有人在和我對話。
但一邊思考一邊說話,就會造成使用者在使用語音助手時需要重復喚醒,而這就成為了語音助手的命門。但如果想要做到無感化,讓使用者無需說出「Hey Siri」這類喚醒詞、而語音助手知道使用者準備和自己對話,這背後的差別可就大了。就好比我們不用說出對方的名字、對方卻知道我們要與TA說話,就需要在龐雜的對話中精準分析出哪句話是對TA說的。用成語來形容,就是蘋果希望做到Siri與使用者之間達到「心有靈犀」的狀態。
讓Siri能聽懂使用者說話時的語境,透過收集海量的使用者語音資訊,預訓練出一個專精於「察言觀色」的大模型,就是這次蘋果研發人員的核心工作。經過海量語料訓練出的多模態大模型具有共情能力、會「讀空氣」,這是經過了實踐檢驗的。可是免喚醒詞啟用語音助手是有風險的,因為這就意味著iPhone會全天候保持錄音狀態,以響應使用者的對話需要,這背後蘊含著巨大的私密安全風險。
要知道,時刻保持錄音狀態就意味著iPhone變成了一個使用者身邊的監聽裝置,在經過了此前大批智慧音箱未經使用者允許主動監聽的風波,蘋果方面顯然知曉其中的風險。Siri則是目前智慧語音助手中可以不向廠商分享數據,甚至能夠只在裝置端執行,而其被許多使用者吐槽「智障」的原因,就是因為它不能使用雲端算力。
私密無疑是蘋果如今為旗下裝置主動營造的一張王牌,所以不可能為了AI、而讓使用者有其主動監聽自己的感受。這也是為什麽蘋果會選擇GPT-2,而非Mate Llama 2、谷歌Gemimi,乃至自家MM1等參數更大大模型的原因。能夠實作端側部署的大模型,才是蘋果做到免喚醒詞啟用Siri的前提條件。不過如今小尺寸模型真的能做到在復雜聲學條件下,準確辨識使用者語境的能力嗎?