當前位置: 華文世界 > 科技

小愛同學:大模型顛覆端側互動體驗|AI套用指南

2024-05-10科技

【億邦原創】AI助理是大模型最靠近消費者的套用,承載著大模型To C的巨大想象空間。

這也是小愛同學的主要工作範圍。小愛同學是小米集團的人工智慧互動引擎,搭載在小米手機、音箱、電視、電腦等眾多小米裝置中,可以充當使用者生活中的智慧助手。小愛同學的主要任務包括:裝置控制類、資訊查詢類、生活服務類、閑聊對話類等。

2022年10月,小愛同學開始探索大模型套用,小米集團小愛總經理王剛發現,大模型可以幫小愛同學大幅提升使用者活躍度,並提升中長尾問題的回答滿意度。目前,小愛同學月活1.3億,每天的互動次數2億。

2024年5月9日,在阿裏雲的AI峰會上,小米集團小愛總經理王剛分享了過去兩年小愛同學在大模型上的探索與思考。

以下是王剛分享的主要內容,經億邦動力編輯,未經講者稽核。

大家好,我是小米集團小愛同學的王剛,很榮幸在這個場合跟大家介紹過去兩年小愛同學在大模型上的探索。

小愛同學研發於2016年,到現在已經8年,廣泛套用在小米的各個終端裝置上。小愛同學是一個軟硬體結合的智慧助手,背後是大量硬體的聲學鏈路設計、前端的語音處理、系統級的套用設計。

小愛同學的具體任務包括幾大類:裝置控制類最多,還有資訊查詢、內容服務、生活服務、閑聊對話等大概54類,月活1.3億,每天的互動次數2億。

我們在2022年10月開始套用大模型技術,到今天為止,已經在汽車、手機、音箱等多種裝置上使用。我們發現,大模型技術能顯著提升使用者滿意度,提高使用者活躍度。

比如,大模型提升了很多中長尾問題的滿意度,還有閑聊互動的滿意度。原來中長尾的滿意度在30%-40%,有了大模型之後提升到80%,使用者活躍度大概提升了10%。

再比如商品助手這個產品,要回答使用者關於售前、售後的各種問題,某個商品的參數、配置、價格等問題,如何使用產品,故障之後如何修理等。

在過去的AI技術下,我們需要寫大量問答對,才能把問題回答出來。但大模型有通用解決範式,透過RAG技術、檢索匹配,可以得到最優答案。這讓原本復雜的問題變得很簡單。

小愛同學內有大量NLP任務,以前每一個NLP的任務都需要收集針對性的訓練數據,做針對化訓練。大模型時代的開發範式跟以前有一個巨大的差別,大模型具有世界知識,通用能力特別強,在解決特殊NLP任務時,我們只需要用小數據加上大模型,就可以套用到不同NLP任務中,效果還比之前還好。所以我們也看到,在非常多的NLP任務上,大模型改變了原有的解決問題的方式。

小愛同學在接收到使用者語音後,需要先對使用者需求做意圖理解,意圖理可以分成幾大類任務:

一個是內容類任務,典型的是點歌需求。透過小愛同學點歌,這個任務對搜尋推薦有強依賴。我們透過大模型進行使用者需求理解,指導使用者想搜什麽樣的歌曲,然後用相對傳統的搜尋推薦技術去解決任務。

一個是生成式問題,這是大模型特別擅長的,原來的技術也做不到。

最難的是知識問答類任務,這類任務對準確性要求高,通常只有唯一答案,所以對大模型的通用能力要求特別高。這塊也是我們看到的大模型最難解決的地方。到目前為止,大模型距離真正解決使用者需求還有明顯差距。

這也是我們很關心的問題。每次我們在跟基座大模型同行聊天的時候,都會問:大模型現在有沒有到天花板?距離天花板還有多遠?同行會回答,大模型的天花板還很高,我們當下離天花板還很遠,我們會用更大SCALE訓的練數據,讓大模型能力能變得更強。這也是我們特別期待的。

小愛同學在大模型套用方面,步驟和大家差不多,包括建設業務所需要的評測集;選擇業務場景下的適配模型;針對場景做客製最佳化微調。

舉個例子,我們最關註的模型指標是兩個:一個效果,一個效能。在效果上,我們劃分了9大類42小類的效果指標,對所有的模型去做評價。在效能上,根據不同場景、不同需求,我們遍歷所有大模型,尋找最優模型。

在小米汽車SU7上,「小愛同學」可以遵從乘客的自然語言指令,在車載中控屏畫出「小貓爬上窗台」等畫面,增加親子互動和乘車樂趣。透過最佳化演算法、蒸餾模型,大模型在確保圖片品質的前提下可做到5秒出圖,將出圖時間縮短一半。

在小米手機端的「小愛同學」還可以完成一鍵拍照生成菜譜、戶型圖分析、提供P圖建議等復雜的圖片理解任務。使用者還可以向「小愛同學」發出語音指令,請它創作一幅山水畫、梗圖或創意設計文案。

總結一下,在隨著大模型能力越強,我們對小愛同學後續的能力升級抱有非常大的期待。

我們當下最關註的AI趨勢,一個是AI Agent,一個是多模態,還有一個是端側大模型。

AI Agent是一個非常重要的概念,它能幫助使用者完成一些復雜任務,但當下還沒法真正用起來,因為一個任務如果不能以95%以上的準確率完成,這個產品還不太可用。我們希望去加快跟我們大模型廠商的合作,能去把一些AIAgent的準確率大幅提升。

多模態是現在的必備技能。

最後是端側大模型,端側大模型可以可以解決使用者的私密的問題,可以在使用者數據不上傳的情況下,幫助使用者搜尋檔,解答問題,包括在無網、弱網場景下,直接跟使用者互動。

總結一下,對小愛同學來說,我們關註的事情就兩條,一條是效果,一條是成本。當前效果更重要。從效果上看,我們又看中兩點:一個是通用能力,一個是場景適配能力。

所以阿裏雲的百煉平台對我們很有吸重力,可以讓我們把業務場景和大模型進行高效適配,阿裏雲也釋出了百煉平台2.0,我們也會作為一個重要的內部平台把它用起來,希望百煉平台能幫我們服務好業務場景。

這是我今天的分享,謝謝大家。