撰文 | 曹雙濤
編輯 | 楊博丞
題圖 | IC Photo
在中美AI大模型的競爭上,正衍生出兩種不同的路徑。
繼台北時間5月14日淩晨OpenAI春季釋出會上,OpenAI推出兼具聽、看、說能力的GPT-4o後。台北時間5月15日淩晨谷歌I/O開發者大會上,谷歌CEO桑達爾·皮查伊釋出數十款Google和AI 結合產品,堪稱「全家桶」級別,全面圍剿Open AI。
其中包括支持200萬token長文本的Gemini 1.5 Pro和 Gemini 1.5 Flash,對標Sora的Veo,開源模型Gemma 2,支持生成式搜尋的AI Overviews、第六代TPU等。
整場開發者大會最大的看點為,谷歌推出的AI語音助手——Astra,它能夠透過網絡攝影機辨識物體、程式碼和各種東西。現場演示影片中,使用者要求Astra在看到發出聲音的東西時告訴她,助手回答說,它可以看到一個發出聲音的喇叭。對於一閃而過的蘋果,Astra居然也能夠準確回答出在眼鏡旁邊。
除Astra外,谷歌還推出基於Gemini的多款通用AI Agent子系列產品。如音訊的NotebookLM、音樂的Music AI Sandbox、影片的Veo、影像的Imagen 3,直接對標OpenAI釋出的GPT-4o、Dall-E和Sora。
和谷歌、OpenAI圍繞技術之爭不同的是,國內大模型或將迎來價格戰時代。在5月15日字節舉辦2024春季火山引擎Force原動力大會上,字節推出3款AI產品,包括AI生圖產品 PicPic、AI 教育產品河馬愛學、AI 劇情互動產品貓箱。
除這三款產品外,字節面向TOC端的產品還包括定位AI教育的Gauth,定位AI對話的豆包和CiCi;定位AI工具的小悟空ChitChop;定位Al Bot建立平台的Coze和扣子;定位AI互動劇情的BagelBel等。
但字節率先啟動行業價格戰,火山引擎總裁譚待表示,豆包大模型將開啟付費商業化,且定價遠低於行業價格。以豆包通用模pro-32k版為例,模型推理輸入價格僅為0.0008元/千Tokens。市面上同規格模型的定價一般為0.12元/千Tokens,是豆包模型價格的150倍。
字節本輪降價後,後續國內其他大模型廠商或將跟隨。但降價能否幫助國內大模型廠商帶來更多新增使用者和付費使用者,仍值得商榷。
GPT-4o和谷歌Gemini不斷宣傳現階段AI能力大振幅提高,兩家誰的大模型能力更強呢?基於此,我們也對GPT-4o和Gemini展開了多維度的測試。
一、文本輸出:Gemini和GPT-4o愈發接近,部份能力已趕超
因GPT-4o和Gemini均屬於世界TOP級的大模型,在測試兩家大模型的文本輸出能力上,我們直接將難度升級。
為什麽很多國家仍以油車為主?你覺得影響新能源汽車海外滲透率提高的因素有哪些?我們將這一問題同時給到GPT-4o和Gemini,二者均指出充電基礎設施建設、購置成本、技術進步、政策支持、消費者文化習慣是很多國家仍以燃油車為主的原因。
但相較於GPT-4o,Gemini不僅辨識到我們提問的是兩個問題,且均給出答案,也回答出GPT-4o沒有指出的車企方面、宣傳教育方面的問題。也就是說,Gemini的回答可能更為完整。
圖源:基於Gemini和GPT-4o生成內容整理 DoNews制圖
我們繼續追問要求兩個大模型同時給我們撰寫一份10000字全球新能源汽車報告,並要求報告中需要包括行業價格戰、電池技術、未來發展方向、產業趨勢。
但此時兩個大模型的表現已經出現明顯差異,GPT-4o給我們生成七大章節的框架,每個框架下也要對應的小框架。但就是不輸出我們要求的內容,這或許和當前GPT-4o在長文本能力上的欠佳有關。
圖源:GPT-4o官網
Gemini雖給我們具體的文本內容,但全文1679字和我們要求的萬字報告差距較大。內容被大振幅壓縮後,整個內容質素也相對欠佳。
如在提到新能源汽車產業趨勢發展上,Gemini給出的內容為產業鏈整合、跨界合作、國際化競爭,每條內容僅有一句話進行概括。換言之,在真正涉及行業專業性問題上,Gemini和GPT-4o均存在不同程度的短板。
圖源:Gemini官網
當我們將難度繼續提高後,詢問為什麽今年以來全球大宗商品價格持續上漲?這種漲幅帶來的影響有哪些?未來價格是否會回落?在首問中GPT-4o和Gemini給出的答案有所相同,均指出和供應鏈、地緣沖突、全球經濟等因素有關。且在未來價格走勢預測中,兩者給到的答案也基本相同。
但在漲幅所帶來的影響上,Gemini給出的答案可能更為完整。尤其是在金融、企業利潤、社會等方面的影響,GPT-4o並未指出。
圖源:基於Gemini和GPT-4o生成內容整理 DoNews制圖
在文本內容快速分析上,我們讓兩款大模型同時給我們分析安克創新2024年Q1財報中存在的風險點,GPT-4o生成的風險點包括現金流減少、高額的銷售費用和管理費用、財務費用大振幅波動、公允價值帶來損失這四點。
圖源:GPT-4o官網
但Gemini給出的內容卻包括營收增速放緩、經營活動大振幅下降、銷售費用和管理費用大振幅增加、存貨跌價損失增加、匯兌大振幅增加、對政府補助依賴這六點。這也不能看出,Gemini的回答更為完整。
圖源:Gemini官網
而當我們要求兩款大模型同時以如何幫助失戀的人走出陰影,寫一篇2000字的文章。要求文章有觀點,並且文章內需要配上對應的圖片和音訊,Gemini的表現可以說完全吊打GPT-4o。
在文章開頭,Gemini直接放入一曲舒緩的音樂,且這個音樂也支持播放。每個細分章節下,Gemini直接從網站上檢索到和內容相關的圖片,實作OpenAI提到的文本、音訊、影像的任意組合。
圖源:Gemini官網
對比之下,GPT-4o給到的內容就有些遜色。除文章開始處能看到圖片外,其余正文處均未看到任何和內容相關的圖片,且全文中也看不到音訊。
圖源:GPT-4o官網
整體測試下來後我們發現,谷歌在生成式AI領域尤其在文本能力輸出上已經從「落後」到追趕,甚至內容質素上、內容組合等能力上已經超過GPT-4o。
二、對比之下,Gemini綜合能力不容忽視
在測試過程中,我們發現Gemini不僅支持文本內容提問,且也支持語音提問。但因國內網絡受限,暫無法對語音功能進行測試,也無法判斷這是否為谷歌釋出會上提到的Astra。相較於谷歌的快速,GPT-4o目前仍是支持單一的文本內容提問。
圖源:Gemini官網
圖源:GPT-4o官網
深耕搜尋行業多年的谷歌,讓目前的Gemini也能實作AI檢索。且這種檢測不僅包括圖文網頁也包括影片。當我們要求Gemini以汽車安全為核心,生產一個20-30S的影片時,Gemini先是給出了我們具體的影片指令碼。
當我們繼續追問你能我們直接生成影片嗎?Gemini的回答有些超過我們的預期,直接給到我們幾個YouTube的相關連結。且這些連結居然也無須跳轉YouTube上觀看,在Gemini大模型內也能實作自動播放。
圖源:Gemini官網
圖源:Gemini官網
對比之下,GPT-4o雖也能根據我們的要求輸出對應的影片指令碼,但卻並不具備Gemini的這些功能。
圖源:GPT-4o官網
值得註意的是,Gemini和GPT-4o目前均不支持音訊、影片內容辨識,且Gemini目前也不支持圖片生成功能。支持圖片生成功能的GPT-4o,目前也存在部份問題。
如當我們要求GPT-4o輸出一張同時包含中國傳統神話故事中四大神獸的照片時,圖片內容雖出現四大神獸,但除青龍稍微符合神話故事原型外,其他三大神獸均和神話故事中的原型相差極大,這可能也和OpenAI團隊對中國傳統神話故事學習能力欠佳的有關。
圖源:GPT-4o官網
但在圖片的辨識能力上,Gemini正以圖片辨識為基礎場景,衍生出更多場景服務。我們選取網絡平台常見的面條圖片,Gemini在辨識出這張圖片為雞蛋面後,又給到我們雞蛋面、中國面條等關鍵詞方便我們二次檢索。更重要的是,Gemini還直接推薦各種雞蛋面的做法。
圖源:Gemini官網
對比之下,GPT-4o在辨識出圖片內容為拌面下,僅是簡單地對拌面進行介紹,並未展開過多敘述。
圖源:GPT-4o官網
當我們將識圖能力難度升級後,在網絡平台上選取常見的竹林照片,並詢問Gemini圖片的拍攝地點時,Gemini給出包括日本京都嵐山竹林、日本京都嵯峨野竹林、日本沖繩八重山竹林、中國四川毛竹林、中國安吉竹林、南美或東南亞等地點,並指出竹林的重要性。
圖源:Gemini官網
GPT-4o僅指出,這樣的景色在中國、日本等東亞國家極其常見。如日本的京都嵐山竹林和中國的安吉竹海都是著名的竹林景區。不僅地點相對Gemini較少,還反問到你知道具體的拍攝地點嗎?
圖源:GPT-4o官網
在測試邏輯推理上,我們選取2023年全國卷數學高考真題中難度較大的壓軸題時,GPT-4o給出的答案可以用失望來形容。
圖源:2023年全國卷數學真題
如在全國高考卷第20題的兩問中,GPT-4o僅是簡單地給出不完整的解題步驟,沒有輸出任何一個準確答案。
圖源:GPT-4o官網
第21題的三問中,GPT-4o不僅將三小問變成兩小問,且前兩問求概率的問題上,本應為具體數碼的答案,在GPT-4o這裏卻是帶有變量N的不確定答案。
但Gemini的表現同樣欠佳,如在第20題首問的求通項公式中,Gemini雖給出兩種解法,但兩種解法給出的答案完全不同。換言之,Gemini有可能僅是簡單地抓取國內網站的相關連結,並未對資訊內容和準確度進行二次稽核。
圖源:Gemini官網
整體來看,目前Gemini在很多方面的綜合能力,以及產品上線速度方面比GPT-4o更加能打。且在價格方面,谷歌的Gemini 1.5 Flash 的價格定為每100萬個token 35 美分,比GPT-4o的每100萬個token 5 美元的價格低很多。產品組合效能表現不輸GPT-4o疊加低價,谷歌或許正在放出王炸。
但按照OpenAl在大模型上積累的強大技術能力來看,谷歌在某些方面稍微領先的優勢能保持多久,仍有待商榷。谷歌和OpenAI在AI大模型技術上的持續博弈下,可能會將美國AI大模型的技術能力推向新高度。
三、國內卷價格,或將推動行業加速洗牌
對於字節率先發起行業價格戰也不能理解,目前國內大模型在TOC端的商業化落地,正朝著當年的流動互聯網方向發展。
依靠價格戰,流動互聯網廠商(大模型廠商)不斷提高新增使用者和日活使用者的同時,後續逐漸衍生出如廣告、電商、與核心業務場景高度契合的其他場景收入。這在保證平台實作單個使用者價值最大化的同時,也能幫助流動互聯網廠商(大模型廠商)提高現金流,持續減少企業虧損。
後續流動互聯網廠商(大模型廠商)繼續發動行業價格戰,資金能力不足的中小廠商被洗牌出清,行業份額繼續朝著頭部廠商集中。頭部廠商獲得高話語下,對供需兩側衍生更多商業化,最終讓行業形成強者愈強的馬太效應。
不僅僅是TOC端,大模型價格戰未來也將同樣出現在TOB端。對標SaaS產業來看,價格仍是國內SaaS企業的核心優勢之一,尤其在SaaS產業產品和場景同質化嚴重、國內企業主付費意識不強、中小客群存在流失率高、合規性差、決策集中一人等現狀下,頭部SaaS廠商想要從價格戰的泥潭中走出,面臨著不小的阻力。
但需指出的是,互聯網時代面向TOC端的價格戰,更多是建立在細分場景下的服務上。這種服務下,消費者真正關註的也就是服務好壞。剛需場景下,這種服務好壞更是被淡化。
但AI大模型時代,類似於美圖這種圖片場景類的服務,消費者的要求可能不高。但其他場景下,本質是使用者願意為大模型的高質素內容進行付費。
換言之, 消費者真正看重的仍是大模型的處理能力以及能否高效完成任務,而非價格。若在完成任務能力上表現欠佳,價格再低實則也是無用。
尤其是對於金融類、研投類對大模型輸出的內容質素要求高、數據質素生成快且專業的行業來說,更是如此。更別提企業端客製大模型,更不允許大模型的生產內容和數據存在絲毫偏差了。
或許國內大模型廠商是想借助價格戰,盡快讓大模型幫助企業帶動營收增長,進而對沖大模型前期高昂的研發成本投入,以及相關硬件方面的投入。
但隨著國內大模型廠商在價格上持續內卷,或將影響到不少技術能力優越但資金實力不足的初創企業,這又是否會讓中美在大模型方面的技術能力差距被拉開得更高呢?