不用喚醒詞就能對話，蘋果的AI要先為Siri賦能

2024-03-25科技

在放棄造車後，AI無疑就成為了空間計算之外，蘋果未來持續增長的另一個引擎。毫無意外的是，繼Android陣營友商開始造勢「AI手機」後，有傳言稱蘋果即將在今年秋季登場的iPhone 16系列和iOS 18上，AI就會占據不小的比重。就在蘋果方面3月22日剛剛發表的一篇論文中，就透露了他們的研究人員正在嘗試利用人工智能消除智能語音助手Siri的喚醒詞。

這篇出現在預印本網站Arxiv的論文中顯示，蘋果的研究人員使用捕獲的語音以及來自背景噪音等總計超過129小時的聲學數據，訓練了一個大型語言模型，該模型部份基於OpenAI的GPT-2構建，因為它相對輕量級，可以在智能電話等器材上執行。並且相關研究人員聲稱，該模型能夠比純音訊或純文本模型做出更準確的預測，並且會隨著模型規模的擴大而進一步改進。

借助AI讓使用者不需要使用特定的「Hey Siri」喚醒詞，隨時隨地與Siri展開對話，盡管可能不如「AI手機」那樣看似高大上，但也更符合蘋果一貫審慎地在iPhone上增加新功能的策略。必須要承認的是，Siri等智能語音助理是手機完成AI化的最佳切入點，而AI手機的理想形態，當然是將AI技術與作業系統整合，將AI的能力播灑在手機系統的每一個角落，最終達到潤物細無聲的效果。

只可惜，目前的端側大模型也僅僅只是做到了在手機上執行大模型而已，用AI賦能作業系統，並透過API來支撐不同場景、不同任務還是鏡花水月。由於現階段端側大模型與使用者下載大模型App獲得的體驗沒有質的區別，這也是為什麽現在有不少人認為「AI手機」是偽命題。所以借助智能語音助手將AI大模型的能力提供給使用者，並成為AI觸達使用者的入口，也是當下許多手機廠商最簡單、且有效的解決方案。

五六年前，手機圈曾有過一輪智能語音助手熱潮，諸如小愛同學、Jovi、小布、小藝等，也都曾作為新品釋出會上的主角。得益於此，用語音助手來實作AI的認知早已埋藏在消費者的腦海中，所以使用者用語音來作為媒介與AI進行自然語言對話，或許就是最符合當下普通使用者對於AI的想象。

那麽問題就來了，蘋果利用人工智能來消除Siri的喚醒詞到底有什麽意義呢？

為什麽智能語音助手會過氣，使用體驗不佳無疑是核心。借助Siri等語音助手用聲音來操控手機，其實是一件很有未來感的事情，此前各大廠商在釋出會上展示的效果，就已經有了科幻片中展現的未來生活範式味道。可當大家實際使用的時候卻發現，「Hey Siri，開啟抖音」、「小愛同學，打電話給張三」等操作與人類之間的對話有著明顯區別，甚至可以說喚醒詞的存在將使用者從科幻拉回了現實。

實際上，為什麽語音助手一定需要一個喚醒詞呢？從某種程度上來說，喚醒詞也成為了各廠商的招牌，是品牌形象的一個組成部份，透過每次啟用語音助手時所說出的喚醒詞，使用者關於品牌的記憶也會在這日復一日的重復中被強化。除此之外，讓語音助手一直處於啟用狀態會增加手機的功耗，進而導致使用者感知到續航下降。

為了節能，手機廠商想出了語音喚醒（keyword spotting），並透過低功耗協處理器來即時監聽麥克風，一旦監聽到類似「Hey Siri」、「小愛同學」等提前設定的喚醒詞時，就會將語音助手從休眠狀態啟用到工作狀態。就像人類用姓名來區分個體一樣，「Hey Siri」、「小愛同學」其實就是語音助手的名字。

其實語音喚醒技術的原理並不復雜，即利用聲紋辨識技術實作定向人聲分離，將人聲從復雜的環境雜訊中挑選出來，再搭配聲紋辨識編碼器，來準確分辨使用者提前錄制好的喚醒詞聲紋特征。說出喚醒詞，就和人類發起與他人談話時會叫出名字是一回事，但是人類之間的對話屬於「一次喚醒、多輪互動」，我們還可以用視線、手勢等其他感官輔助，讓他人知道有人在和我對話。

但一邊思考一邊說話，就會造成使用者在使用語音助手時需要重復喚醒，而這就成為了語音助手的命門。但如果想要做到無感化，讓使用者無需說出「Hey Siri」這類喚醒詞、而語音助手知道使用者準備和自己對話，這背後的差別可就大了。就好比我們不用說出對方的名字、對方卻知道我們要與TA說話，就需要在龐雜的對話中精準分析出哪句話是對TA說的。用成語來形容，就是蘋果希望做到Siri與使用者之間達到「心有靈犀」的狀態。

讓Siri能聽懂使用者說話時的語境，透過收集海量的使用者語音資訊，預訓練出一個專精於「察言觀色」的大模型，就是這次蘋果研發人員的核心工作。經過海量語料訓練出的多模態大模型具有共情能力、會「讀空氣」，這是經過了實踐檢驗的。可是免喚醒詞啟用語音助手是有風險的，因為這就意味著iPhone會全天候保持錄音狀態，以響應使用者的對話需要，這背後蘊含著巨大的私密安全風險。

要知道，時刻保持錄音狀態就意味著iPhone變成了一個使用者身邊的監聽器材，在經過了此前大批智能音箱未經使用者允許主動監聽的風波，蘋果方面顯然知曉其中的風險。Siri則是目前智能語音助手中可以不向廠商分享數據，甚至能夠只在器材端執行，而其被許多使用者吐槽「智障」的原因，就是因為它不能使用雲端算力。

私密無疑是蘋果如今為旗下器材主動營造的一張王牌，所以不可能為了AI、而讓使用者有其主動監聽自己的感受。這也是為什麽蘋果會選擇GPT-2，而非Mate Llama 2、谷歌Gemimi，乃至自家MM1等參數更大大模型的原因。能夠實作端側部署的大模型，才是蘋果做到免喚醒詞啟用Siri的前提條件。不過如今小尺寸模型真的能做到在復雜聲學條件下，準確辨識使用者語境的能力嗎？