當前位置: 華文世界 > 科技

10M上下文,僅靠提示就掌握一門語言,Google Gemini 1.5被OpenAI搶頭條是真冤

2024-02-18科技

這兩天,幾乎整個AI圈的目光都被OpenAI釋出Sora模型的新聞吸引了去。其實還有件事也值得關註,那就是Google繼上周官宣Gemini 1.0 Ultra 後,火速推出下一代人工智慧模型Gemini 1.5。

公司執行長 Sundar Pichai攜首席科學家Jeff Dean等眾高管在推特同時宣布了這一重大更新。

其中最亮眼的當屬它在跨模態超長文本理解能力上的大幅突破。 Gemini 1.5能夠穩定處理的資訊量高達100萬個tokens 。更直觀去感受,這相當於1小時的視訊、11小時的音訊、超過3萬行程式碼或70萬個單詞。

在此之前,世界上公開可用的LLM中,最大的上下文視窗來自Claude 2.1的20萬tokens。同時GPT-4是12.8萬tokens, Gemini 1.0 Pro是3.2萬tokens——此次Gemini 1.5已在視窗長度上成功碾壓所有大模型。

Google還表示,他們在研究中已成功測試了高達1000萬tokens,相當於一次將整個【魔戒】三部曲放進去。

Sundar Pichai認為更大的查詢視窗對企業來說會非常有用, 「電影制作人可能會上傳他們的整部電影,詢問Gemini評論家是什麽意見,公司還能使用Gemini審查大量的財務記錄。這是我們實作的重大突破之一。」

更高效的MoE架構

作為目前Google公開的最先進LLM,Gemini 1.5采用時下流行的混合專家(MoE)架構來提高效率,響應更快、品質更高。

與傳統Transformer 作為一個大型神經網路執行不同, MoE 模型被劃分為較小的專家模組。執行任務時會根據資訊型別,選擇性地啟用最相關的專家路徑,從而大大提升模型的效率和準確性。不僅更適應處理大規模數據集的復雜任務,還有更強的可延伸性和靈活性。

我們熟知的Mistral 8x7B、MiniMax abab6都是使用了Moe架構,更有爆料稱GPT-4也是由8個或16個專家模型構成。

根據Google 數據,此次供早期測試的Gemini 1.5 Pro在使用更少計算資源的同時,對數學、科學、推理、多語言和視訊等任務的執行水平已逼近1.0 Ultra。

在官方演示和58頁的技術論文中, Google還針對新模型的強大效能給出了以下幾個用例:

大量資訊的復雜推理和多模態分析

Gemini 1.5 Pro 可以無縫分析、分類和總結給定的長篇復雜文件。例如,上傳阿波羅 11 號登月任務的 402 頁pdf記錄,讓它根據要求列出3個有意思的瞬間,並參照原始對話細節。

給出維克多·雨果的五卷本小說【悲慘世界】(1382頁,73.2萬tokens),粗略勾勒一個場景,並提問「看看這幅畫中的事件是在哪一頁上?」模型準確給出了頁碼,並標識出關鍵情節。

在超長視訊理解上同樣出色,能夠快速準確地分析各種事件和情節點。比如給定一部相當於68.4萬tokens、時長為44分鐘的無聲電影Sherlock Jr.,要求一句話總結電影情節:

繼續詢問一個「紙張從口袋取出的關鍵資訊和時間」。Gemini 1.5 Pro用時57秒給出詳細答案。

另外,Gemini 1.5 Pro超大的上下文視窗還能夠深入分析整個程式碼庫。當發出一個81.6萬tokens、超過10萬行程式碼的提示時,它可以根據提問快速找到特定demo的程式碼,還能提出有用的修改建議並進行解釋。

一本語法書,自學轉譯新語言

另一項讓人耳目一新的是Gemini 1.5 Pro的「 上下文學習(in-context learning) 」技能,意味著它能從一個長提示中給出的資訊裏學習新技能,而無需額外微調。

為此,Google使用「對一本書進行機器轉譯 (MTOB)」進行測試,並選用新幾內亞西部不到200名使用者的Kalamang語。由於該語言幾乎沒有任何網路資訊,模型只能依賴於給定的上下文數據,而非訓練權重中儲存的知識來進行轉譯。

在測試中, 工作人員向Gemini 1.5 Pro提供了500頁參考語法、2000條雙語詞條和400個額外的平行句子——總計約25萬tokens資訊作為其輸入上下文,要求從中學習並完成Kalamang語和英語的互譯。

從測試結果可見,Gemini 1.5 Pro對整本書的轉譯得分接近人類學習者,在半本書的表現中遠超GPT-4 Turbo與Claude 2.1。

對於一門在模型訓練過程中幾乎完全沒接觸過的語言來說,這一成就尤為突出。不僅支持瀕危語言的保護和復興,也為其它低資源教育領域開辟了新的可能性。

從今天開始,Google將透過AI Studio和Vertex AI向開發者和企業客戶提供 Gemini 1.5 Pro的有限預覽許可權。最終在完成所有安全部署和測試後取代Gemini 1.0。免費使用的Gemini 1.5 Pro標準版將采用12.8萬個tokens上下文視窗,普通使用者需要額外支付費用獲得100萬tokens使用權。

被OpenAI「夾心」,但仍不可小覷

此次Gemini 1.5的釋出時間再次「不湊巧」,前有OpenAI放話開發網路搜尋產品和推出GPT記憶功能,後面緊跟著兩小時後又橫空殺出個Sora。阿特曼武器庫豐富且擅長針鋒相對,每當Google有新動作,剛要炸起水花就被摁下去。

網友們形容當天的場面就如同:

但是,依然有不少聲音站出來提醒大家切莫小看了Gemini 1.5 Pro,它對超長文本強大的分析推理能力是其它大模型做不到的。

NVIDIA高級科學家Jim Fan更是發表評論盛贊。表示盡管Gemini-1.5 Pro被搶走了風頭,被人們拿梗圖來開玩笑,但這仍是LLM能力的巨大躍升。測試中達到的1000萬tokens上下文、擅長檢索、在零樣本情況下對極長指令進行泛化、多模態工作能力都是驚人的。

「重要的不是聲明中實作多少上下文長度的神話,而是模型實際上如何使用上下文來解決現實世界的問題。」他認為1.5 Pro不透過微調而自主實作對Kalamang語的學習和套用,就展現出了這種神經啟用中的復雜技能,超越了現有的技術水平。

如今OpenAI的急速擴張和Gemini逐步加快的升級速度,已經標誌著生成式AI底層技術的狂熱步伐。Google DeepMind 負責人Demis Hassabis表示,可以期待未來幾個月會有更多的進步。

「這是一種新的節奏」,他說,「我正試圖帶來一種類似初創公司的心態。」