當前位置: 華文世界 > 科技

GPT-4 Turbo慘遭碾壓 谷歌剛釋出的Gemini 1.5 Pro有多強?

2024-02-16科技

財聯社2月16日訊(編輯 史正丞)在本周之前,如果被問及「地球上最強的AI模型是哪個?」時,絕大多數人都會下意識地指向OpenAI去年11月釋出的GPT-4 Turbo。然而,幾個月過去,這個問題的答案已經悄然發生變化。

當地時間周四,谷歌突然釋出「下一代AI模型」——Gemini 1.5。相較於更新叠代的速度(註:谷歌去年12月才剛釋出Gemini 1.0),新一代模型展現出的生產力暴增更是勾起了業界強烈的興趣。

(來源:谷歌)

核心爆點:一次性處理一百萬tokens

作為新版本最大的亮點,Gemini 1.5版本中第一個登場的多模態通用模型Gemini 1.5 Pro,把穩定處理上下文的上限擴大至100萬tokens。這裏需要強調的是,雖然字面表達是「上下文」,但AI模型已經跨入多模態時代,新出的前沿大模型基本都支持處理文字、程式碼,以及圖片、語音、視訊等富媒體。

橫向對比,兩個月前釋出的Gemini 1.0 Pro上下文理解限制為3.2萬tokens,老對手OpenAI的GPT-4 Turbo也只支持12.8萬tokens。

(來源:谷歌)

Token這個概念可能有一點繞。換一種方式來解釋,就是能夠一次性丟給Gemini 1.5 Pro 超過70萬個單詞的文本、3萬行程式碼、11個小時的音訊,或1個小時的視訊,然後指揮它幹活。對大模型而言,上下文視窗是對套用場景的最主要限制——若無法「讀」完50萬字的檔,自然就無法進行處理。

之所以能一次性處理大量資料,是因為谷歌的模型采用了「多專家模型」(MoE)的演算法,意味著回應需求時只會跑整體模型的一部份,這樣回應速度更快,谷歌處理起來也更省事。

谷歌CEO皮查伊也透露,谷歌的研究人員已經成功測試過1000萬tokens的上下文視窗。這意味著未來的AI模型能做到一次性處理【權力的遊戲】全本(目前已經出版的5本書全文總數達到173萬個單詞)。

值得一提的是,目前谷歌開放給開發者的測試版本中,Gemini 1.5 Pro的token限制只有12.8萬個。不過谷歌DeepMind的CEO德米斯·哈薩比斯直言不諱地表示,後續會推出新的收費層級,供解鎖100萬tokens的版本。作為對比,目前使用谷歌Gemini 1.0 pro模型的訂閱服務每月收費19.99美元。

(Gemini 1.5 Pro各項能力顯著強於1.0 pro,甚至能與1.0 ultra進行比較)

能給些實際案例麽?

在周四放出的演示視訊中,谷歌的研究人員上傳了一份402頁的阿波羅登月計劃實況語音轉寫文件,並畫了一張「靴子落地」的圖片,要求AI在檔中尋找這個時刻的資訊。隨後,大模型準確找到太空人踏上月球時的對話,並準確標註出文件中的位置。

另外,研究人員還上傳了一段44分鐘的影片,要求AI尋找「從衣服口袋裏掏出紙片的時刻,並詳細描述紙片上的內容」,毫無疑問,AI準確輸出了提問者想要的內容。

同時,研究人員上傳了手繪的「人被水龍頭澆」的圖片,AI也順利在影片中找到類似的畫面。

解鎖更多專業場景

在技術文件中,谷歌也給出了一個有趣的用例:丟給AI一本Kalamang語(全球大概只有數百人熟練掌握)的語法書,然後對數個模型進行英語至Kalamang語,以及Kalamang語至英語的轉譯測試。測試按0-6分進行評價,其中6分為完美轉譯。

結果顯示,Gemini 1.5 Pro在Kalamang語轉譯至英語的測試中是現今表現最好的模型,而在英語轉譯至Kalamang語的測試中,更是拿到5.52分的評價,比起真人語言學習者的5.6分只差一步之遙。不要忘了,AI僅僅花了幾分鐘輸入一本語法書而已。

與此同時,由於GPT-4 Turbo和Claude 2.1都有文本視窗的限制,只能看完「半本語法書」,所以輸出的結果大致處於無法套用的範圍。

谷歌CEO皮查伊表示,對於企業套用而言,更大的上下文視窗大有脾益。上市公司可以一次性載入大量的財務數據,而電影制片人則能上轉整部電影,並詢問影評人可能會說些什麽。

而對於更廣泛的「吃瓜群眾」而言,谷歌的這次出手,無疑給OpenAI敲響警鐘——GPT-4 Turbo釋出已經4個月了,什麽時候拿出新一代的大模型呢?