文丨胡璞心
編輯丨張睿
【億邦原創】2024年,大模型行業開始大起大落。
模型層突破遲遲未至——GPT-5難產,Sora現貨變期貨,技術曲線放緩,開路者優勢岌岌可危。
套用層陷入價格戰,大廠爭相降價 ,百萬Token收費從2元、1元、0.8元、0.5元一路跌到免費;明星創業公司艱難突圍,套殼搶跑公司則批次倒下。
視訊模型成為難得亮點,快手可靈AI在全球範圍內一騎絕塵,美圖、智譜AI、阿裏雲、MiniMax、生數科技等視訊模型,均在運動控制、鏡頭控制、人物一致性方面取得長足進展。九月底,火山引擎DiT架構視訊模型釋出,頭號玩家終於入場。
機器人被熱捧——在所有科技展會上,機器人、機器狗、靈巧手都是最吸睛的展品。有人認為這又是一個超級大風口,有人則認為該泡沫將在一年之內破裂,就像過去兩年的元宇宙、AR/VR。
在Q3即將結束的時候,Open AI終於向市場扔出「深水炸彈」。9月13日釋出的OpenAI o1,號稱第一個具有「推理」能力的大模型,能透過推理過程逐步分析問題,直至得出正確結論。至此,大模型領域再次一掃頹勢,繼續創世野心。
本文將梳理2024年到目前為止AI大模型領域最值得關註的五大看點,共同期待接下來的新產品和新套用。
01
最期待:Open AI新模型炸場,萬眾一心為Scaling Law續命
今年模型層的入場券已經從萬卡集群向著十萬卡集群演進,但叠代速度依然不如人意,GPT-4釋出一年多,GPT-5遲遲不能面世,Sora從現貨變成期貨,套用落地僅能稍稍提效,遠達不到重塑商業模式的效果。
從年初開始,對大模型的唱衰之聲不絕於耳,OpenAIo1的釋出無疑有「挽狂瀾於既傾」的效果。
o1 就是此前OpenAI一直在宣傳的「草莓大模型」,它擁有真正的通用推理能力,不用專門訓練就能直接拿到數學奧賽金牌,甚至能在博士級別的科學問答環節上超越人類專家。
阿特曼表示,雖然 o1 的表現仍然存在缺陷,不過你在第一次使用它的時候仍然會感到震撼。
不少人實測中發現,o1 上線之後,ChatGPT在回答問題前會花更多時間進行思考而非直接回應,具有改善和調整策略的能力。這是因為OpenAI o1在模型推理側同樣滿足scaling law,即模型推理時間越久模型處理復雜問題能力愈強,透過不斷的思維樹檢索和反復自我賽局,o1呈現出類人的邏輯思維潛力。
強化學習指的是,智慧體在與環境的反復互動過程中持續學習,不斷最大化其獎勵。
「強化學習是過程監督而不是結果監督,每一步的思考過程都需要被標註,這類數據的獲取非常困難,需要專業人士生成高價值的數據。」生數科技首席科學家朱軍指出,「但效果也十分明顯,這是時隔多年,大模型再次有演算法層面的巨大更新。GPT是predict next token,從2018年GPT-1出來一直到GPT-4,除了加了一個MoE(混合專家模型)以外,沒有什麽太多的很新的東西。」
「決定這一代AI技術的上限很核心還是文本模型的能力上限,如果文本模型能持續提升智商,就是能做越來越復雜的任務。」月之暗面CEO楊植麟則認為。他指出,有了強化學習, 新的PMF(產品市場匹配)機會可能會出現。o1可以分拆人物、自我回溯,做出高品質輸出,在更高價值的場景,特別是生產力場景中,會率先出現套用場景。
更重要的是,o1成功給Scaling Law續命。「我預計未來18個月裏,智慧體的進展將非常令人興奮。比如世界模型的建立和生成、虛實融合,尤其是在特定場景下決策能力的提升。它會利用推理、感知等能力來取得突破。」朱軍補充。
02
最精彩:視訊模型大混戰,快手拔得頭籌
自從2月Sora炸場,視訊生成模型就成了AI的主戰場。這一年Sora遲遲不見蹤影,而沖擊Sora的視訊模型則如雨後春筍。
值得註意的不是模型數量的多少,而是視訊模型的能力升級——經過半年叠代,視訊模型從曾經的PPT動畫,到如今可以基於提示詞,生成4s-16s連貫視訊,生成過程中可以保持人物一致性、場景一致性、風格一致性,可以進行鏡頭控制、運動控制。
視訊能力的增強讓創作者僅需三張定妝照完成一部短片;基於一張商品圖,做一支廣告片。視訊可控性的增強則讓視訊模型廣泛套用於電商、短劇、電影等行業。
生數科技CEO唐家渝告訴億邦動力,視訊模型改變了傳統視訊制作的步驟。比如,Vidu可以摒棄了傳統的分鏡頭畫面生成步驟,透過「上傳主體圖+輸入場景描述詞」的方式,直接生成視訊素材。
圖片來源:生數科技
7月,抖音和快手各自上線純AI生成的短劇【三星堆:未來啟示錄】與【山海奇鏡之劈波斬浪】,完成視訊模型在短劇領域的首秀。青年導演李寧正在打造中國首部AIGC院線電影【玄宇】,他利用Vidu預創作了一段男主的視訊片段,其中所有人物畫面僅透過男主近景、中景、遠景三張定妝照生成。
來源:【三星堆:未來啟示錄】
可控性的增強也在商業廣告片方向展現了強大的潛力。
廣告片的一大關鍵在於要保證多個鏡頭、不同場景下品牌物形象的一致性。而主體一致性功能能夠很好的實作,僅透過一張商品圖,便生成所有視訊畫面,無論是不同角度、背景,還是動態表現,跑步鞋的形象在整個視訊中都保持了高度一致。
從更長遠的視角來看,一旦實作了全面的可控性,視訊創作行業將經歷一場顛覆性的變革。當然,視訊模型的生產力才初見端。
03
最激烈:價格戰打到負毛利,大廠還不收手
大模型最激進的戰場,當屬價格戰。
從4月各個雲廠商的春季峰會開始,字節高調「起頭」,阿裏「擊穿底價」,百度直接「掀桌子」……不到一周時間,大模型廠商針尖對麥芒,每百萬token的輸入價格,先後從2元、1元、0.8元、0.5元跌到免費。Token降價潮就將所有參與者卷了進來。
經過半年價格戰,大廠把Token價格打到負毛利仍然沒有收手,以9月份的雲棲大會為起點,大廠又開始新一輪降價。
【財經】披露,今年5月以前,國內大模型推理算力毛利率高於60%,和國際同行基本一致。今年5月各大廠接連降價後,推理算力毛利率跌至負數。
這場價格戰主要集中在大廠之間,尤其是有雲業務的大廠,大模型創業公司並未跟進。
最激進的當屬阿裏雲。據悉,阿裏雲內部將2024的AI類比為2012年的移動支付和2017年的短視訊——2012年到2013年,3G過渡到4G過程當中,中國的移動支付兩年增長了 800%;2017年到2018年,短視訊增長爆發,整個短視訊行業呈現8.5倍的增長。
降價的效果也立竿見影。今年8月,百度二季度財報電話會披露,百度文心大模型5月API日均呼叫次數是2億,8月增長到了到6億次;5月日均Token消耗量是2500億,8月增長到了1萬億。
火山引擎披露,截至9月,豆包語言模型的日均tokens使用量超過1.3萬億,相比5月首次釋出時猛增十倍,多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。隨著AI滲透率提升,預期2027年豆包每天Token消耗量會超過100萬億,是現在的100倍以上。
更大的算力支出,更低的模型價格,更高的技術門檻,大模型的競爭盡管還沒來得及取得太多商業化成績,但已經開始進入淘汰賽。
吳泳銘在雲棲大會提到,全世界先進模型競爭的投入門檻,將達到數十億、數百億美元的級別。過去一年,阿裏雲投資新建了大量的AI算力,但還是遠遠不能滿足客戶的旺盛需求。
從以CPU為核心,到以GPU為主的計算範式和市場需求的轉變,成為雲廠商以前所未有的強度投入升級AI大基建的主要原因。而雲廠商為此要保持每年百億元級別的算力資本支出。
怪不得王小川認為創業公司要活在大廠的射程之外,「我也是看熱鬧,和大家的心態一樣。」
04
最有錢:百度、科大訊飛、智譜AI領跑行業
隨著諸多大模型獲得備案授權,圍繞大模型的商業化行程需要進一步提速。
C端商業化目前處於探索階段,不管是聊天、配音、視訊還是數位人,大都提供免費服務,廠商看中的是MAU與留存數據。
B端是大模型商業化的重心,教科、金融、能源、政務成為重點領域,采購方主要為央國企、政府部門和科研院所,以計畫招標為主。
據智慧超參數統計,截止8月底,大模型相關中標計畫551個,其中Q1有50個,Q2有187個,7月112個,8月127個,數量顯著增長。同時上半年統計中標計畫披露金額9.39億元。
大模型公司在部份標桿計畫的爭奪中「短兵相接」。
在嵐圖汽車科技有限公司的AI大模型套用計畫中,智譜AI報價約為348.81萬元,騰訊雲報價1334.10萬元,科大訊飛報價758.96萬元,智譜AI中標。
在中廣核海上風電機組輔助診斷AI大模型研究采購計畫中,智譜AI、科大訊飛、拓爾思直接競標,智譜AI中標,報價比其他兩家低200多萬元。
在上海人工智慧創新中心的計畫中,更是出現0元中標情況。
在所有廠商中,百度、科大訊飛、智譜AI的中標數量領跑行業。
其中百度延續了在AI領域的先發優勢,無論在雲端運算還是大模型,百度的早期AI布局都在本輪換擋期搶到先手;科大訊飛深耕政企領域多年,競爭力強;智譜AI商業化迅猛,技術強認可度高,中標計畫多,但中標行業較為分散,有價格讓利。
據了解,目前圍繞大模型相關的招投標計畫,大致可分為4 個大類:算力、數據、模型、套用。其中套用類占比超70%,算力類計畫緊隨其後,智慧客服助手、輔助編程、數據分析類是需求最多的套用場景。
05
最五花八門:機器人花式整活兒
今年最熱鬧的大模型套用,當屬具身智慧。
在7月5日的2024年世界人工智慧大會,一進世博展覽館的正門,18款列隊站好的人形機器人向遊客招手。p會場內,蹦跶著各種尺寸各種形態的機器人,宇樹科技的機器狗翻著跟頭到處賣萌,逐際動力雙足機器人搖頭晃腦到處溜達,達闥的美人魚機器人翩翩起舞,穹徹智慧的機械臂在疊衣服、削黃瓜。
在8月21日的世界機器人大會,人形機器人毫無意外地成為全場焦點,不僅會擺攤磨咖啡、攤煎餅果子、打冰激淩,還會多才多藝寫毛筆字。
幾乎所有人都對人形機器人發展抱有熱切期待。
中國科學院院士毛明表示,人形機器人正在迅速成為智慧制造、醫療、家庭服務等行業的變革力量。全球市場年增長率超 20%,預計 2025 年達數百億規模。
宇樹科技CEO王興興認為,最遲明年年底之前,全球範圍內一定會出現比人跑得快的人形機器人,「比如說100公尺跑進10秒,在體育計畫和文藝演出上,人形機器人比做家務應該更得心應手。」
不過人形機器人熱度雖高,落地依然困難。多位參展的人形機器人廠商表示,人形機器人目前主要出口歐美,使用場景為科研場景。克卜勒機器人則計劃今年下半年量產先行者K1人形機器人,預計售價在3萬美元左右,用於科研。
由於特斯拉的示範性作用,也有廠商將汽車主機廠當作主要落地場景。
王興興也認為,人形機器人距離真正大規模套用的主要限制在於機器人人工智慧方面尚未突破臨界點,隨著近年來在人工智慧取得快速進步,可能在1-2年內會有一些小突破,3-5年內,有足夠潛力實作實質性突破。