當前位置: 華文世界 > 科技

史丹佛20億參數多模態AI Agent模型大升級,手機汽車機器人都能用

2024-05-07科技
允中 發自 凹非寺量子位 | 公眾號 QbitAI
全球第一個超小型多模態AI Agent模型Octopus V3,來自史丹佛大學的NEXA AI團隊,讓Agent更加智慧、快速、能耗及成本降低。
今年四月份初,NEXA AI推出了備受矚目的Octopus V2,該模型在函式呼叫效能上超越了GPT-4,減少了95%的推理時所需的文本量,為端側AI套用帶來了新的可能性。其專利性核心技術「functional token」透過創新的函式呼叫方式顯著減少推理時所需的文本長度。
這種方法使得模型能夠在只有20億參數的情況下實作高效訓練,並在精度和延遲方面超越了GPT-4,適應了各種端裝置的部署需求。
釋出以來,Octopus V2在LLM社群獲得了廣泛關註,受到了AI領域大量前沿技術專家及研究者的贊賞,如Hugging Face的CTO Julien Chaumond、知名AI Newsletter Rundown AI的創始人 Rowan Cheung以及Figure AI的創始人Brett Adcock、OPPO邊緣人工智慧團隊負責人Manoj Kumar,稱其「開創了端側AI技術新紀元」。
在知名開源AI平台Hugging Face上,Octopus V2下載量已經超過12000次。
在不到一個月的時間裏,NEXA AI團隊釋出下一代多模態AIAgent模型Octopus V3,展現進一步突破:具有影像處理和多語言文本處理能力,為智慧型手機等端側裝置真正走向AI時代鋪平了道路。
第一個參數量小於10億的多模態AI Agent模型
Octopus V3不僅擁有多模態能力,在函式呼叫效能上遠超同類模型,可媲美GPT-4V+GPT4;而且模型參數量不到10億,具有多語言能力。
也就是說,相比傳統的大型語言模型,它體積更小,能耗更低,能夠更加輕松地在各種小型端裝置上執行,比如樹莓派,並做到高速且準確的函式呼叫。
這意味著,未來AI Agent能夠廣泛套用於智慧型手機、AR/VR、機器人、智慧汽車等端側裝置,為使用者互動體驗更加流暢、智慧。
另一方面,由於V3具有多模態處理能力,可同時處理文本和影像輸入,再加上多語言能力,也將讓使用者體驗更加豐富。
例如,在Instacart購物套用中,使用者可以透過一張鳳梨的圖片及簡單的對話指令,讓AI Agent自動為他們搜尋商品,提高了效率和使用者的體驗。
再比如,在發送信件等場景中,Octopus V3可以根據一張具有文字的影像,自動提取資訊並填寫信件內容,為使用者提供更加智慧、便捷的服務。
從軟體互動到智慧汽車,端側AI潛力巨大
基於這些特性,Octopus V2及V3的套用場景豐富多樣,具有廣泛的套用前景。
除上文提到的手機場景,當Octopus V2套用在智慧汽車上時,也能帶來新的互動體驗。目前的語音助手往往難以幫助車主完成較為復雜的任務,如在駕駛途中臨時改變目的地、加入額外停靠點等。套用Octopus V3後,AI助手能夠基於較為模糊簡單的指令快速、精準地完成相應任務。
結合V2、V3的能力,從資訊檢索、到基於指令完成設計,使用者可以在虛擬場景下獲得流暢的AI體驗:在一個社群使用者的VR場景demo中,輸入簡單的語音指令後,AI Agent能夠幫助使用者快速完成一個客廳設計,在彈指間替換沙發、改變顏色燈光等。在使用者輸入旅行指令後,使用者快速來到了日本,而AI Agent同樣可以在簡單的對話式交流中幫助使用者搜尋相應景點,提供豐富的資訊。
數據顯示,全球大型語言模型市場規模正在快速增長。Granview Research報告顯示,全球大型語言模型市場規模估計為43.5億美元,並預計從2024年到2030年的復合年增長率為35.9%。同樣,邊緣人工智慧市場也呈現出蓬勃發展的勢頭——預計從2023年到2030年,全球邊緣人工智慧市場的復合年增長率為21.0%,到2030年將達到664.78億美元。
NEXA AI團隊由史丹佛大學的傑出研究人員創立。
創始人兼首席科學家Alex Chen(陳偉)正在攻讀史丹佛大學的博士學位,擁有豐富的人工智慧研究經驗,並且曾擔任史丹佛華人創業協會(Stanford Chinese Entrepreneurs Organization)的主席。
聯合創始人兼技術長Zack Li(李誌遠)也是史丹佛大學的畢業生,並在Google和Amazon Lab126實驗室擁有4年端側AI的一線研發經驗,同樣曾經擔任史丹佛華人創業協會的主席。
史丹佛大學副教授、史丹佛技術創業計畫副主任Charles (Chuck) Eesley擔任顧問,為團隊提供指導和支持。
△左:李誌遠;右:陳偉
目前,NEXA AI的獨創性技術已申請專利保護。
NEXA AI的創始團隊表示,他們將繼續致力於推動端側AI技術的發展,透過開源模型提升其創新技術的影響力,為使用者創造更智慧、高效的未來生活。
論文地址:https://arxiv.org/abs/2404.11459