編輯:Aenea 好困
【新智元導讀】 近日訪談中,LeCun親口證實:Meta為購入輝達GPU已經花費了300億美元,成本超過阿波羅登月。相比之下,微軟和OpenAI打造的星際之門耗資1000億美元,谷歌DeepMind CEO Hassabis則放出豪言:谷歌投入的,比這個數還多!大科技公司們燒起錢來是越來越不眨眼,畢竟,AGI的前景實在是太誘人了。
就在剛剛,Meta AI主管Yann LeCun證實:為了買輝達GPU,Meta已經花了300億美元,這個成本,已經超過了阿波羅登月計劃!
300億美元雖然驚人,但比起微軟和OpenAI計劃打造的1000億美元星際之門,這還是小case了。
谷歌DeepMind CEO Hassabis甚至放話稱:谷歌要砸進的數,比這個還多。
這才哪到哪呢。
LeCun:Meta買輝達GPU,的確超過阿波羅登月
為了發展AI,Meta是破釜沈舟了。
在這個訪談中,主持人問道:據說Meta購入了50萬塊輝達GPU,按照市價算的話,這個價格是300億美元。所以,整個成本比阿波羅登月計畫話要高,對嗎?
補充道,「不僅是訓練,還包括部署的成本。我們面臨的最大問題,就是GPU的供給問題。」
有人提出質疑,認為這應該不是真的。作為史上最大的推理組織,他們應該不是把所有的錢都花在了訓練上。
也有人戳破了這層泡沫,表示每個巨頭都在撒謊,以此營造「自己擁有更多GPU」的假象——
雖然的確在輝達硬體上投入大量資金,但其實只有一小部份用於實際訓練模型。「我們擁有數百萬個GPU」的概念,就是聽起來好吹牛罷了。
當然,也有人提出質疑:考慮通貨膨脹,阿波羅計劃的成本應該是接近2000-2500億美元才對。
的確,有人經過測算,考慮阿波羅計劃1969年的原始價值、根據通貨膨脹進行調整的話,它的總成本應該在2170億或2410億美元。
https://apollo11space.com/apollo-program-costs-new-data-1969-vs-2024/
而華頓商學院教授Ethan Mollick表示,雖然遠不及阿波羅計劃,但以今天的美元計算,Meta在GPU上的花費幾乎與曼哈頓計劃一樣多。
不過至少,網友們表示,很高興對巨頭的AI基礎設施有了一瞥:電能、土地、可容納100萬個GPU的機架。
開源Llama 3大獲成功
此外,在Llama 3上,Meta也斬獲了亮眼的成績。
在Llama 3的開發上,Meta團隊主要有四個層面的考量:
模型架構
架構方面,團隊采用的是稠密自回歸Transformer,並在模型中加入了分組查詢註意力(GQA)機制,以及一個新的分詞器。
訓練數據和計算資源
由於訓練過程使用了超過15萬億的token,因此團隊自己搭建了兩個計算集群,分別具有24000塊p00 GPU。
指令微調
實際上,模型的效果主要取決於後訓練階段,而這也是最耗費時間精力的地方。
為此,團隊擴大了人工標註SFT數據的規模(1000萬),並且采用了諸如拒絕采樣、PPO、DPO等技術,來嘗試在可用性、人類特征以及預訓練中的大規模數據之間找到平衡。
如今,從最新出爐的程式碼評測來看,Meta團隊的這一系列探索可以說是大獲成功。
Symflower技術長兼創始人Markus Zimmermann在對GPT-3.5/4、Llama 3、Gemini 1.5 Pro、Command R+等130多款LLM進行了全面評測之後表示:「大語言模型的王座屬於Llama 3 70B!」
- 在覆蓋率上達到100%,在程式碼品質上達到70%
- 價效比最高的推理能力
- 模型權重開放
不過值得註意的是,GPT-4 Turbo在效能方面是無可爭議的贏家——拿下150分滿分。
可以看到,GPT-4(150分,40美元/百萬token)和Claude 3 Opus(142分,90美元/百萬token)效能確實很好,但在價格上則要比Llama、Wizard和Haiku高了25到55倍。
具體來說,在Java中,Llama 3 70B成功辨識出了一個不容易發現的建構函式測試用例,這一發現既出人意料又有效。
此外,它還能70%的時間編寫出高品質的測試程式碼。
GPT-4 Turbo在生成測試程式碼時傾向於加入一些明顯的註釋,但這在高品質的程式碼編寫中通常是需要避免的。
測試程式碼的品質大大受到微調的影響:在效能測試中,WizardLM-2 8x22B比Mixtral 8x22B-Instruct高出30%。
在生成可編譯程式碼的能力方面,較小參數的模型如Gemma 7B、Llama 3 8B和WizardLM 2 7B表現不佳,但Mistral 7B卻做得很好。
團隊在評估了138款LLM之後發現,其中有大約80個模型連生成簡單測試用例的能力都不可靠。
如果得分低於85分,就意味著模型的表現不盡如人意。不過,上圖並未完全反映評測中的全部發現和見解,團隊預計將在下個版本中進行補充
詳細評測可進入下面這篇文章檢視:
評測地址:https://symflower.com/en/company/blog/2024/dev-quality-eval-v0.4.0-is-llama-3-better-than-gpt-4-for-generating-tests/
想要贏得人工智慧戰爭,代價昂貴到慘烈
如今,各大科技公司都在付出昂貴的代價,爭取打贏這場AI戰爭。
讓AI變得更智慧,科技巨頭們需要花費多少資金?
谷歌DeepMind老板Demis Hassabis在半個月前的TED大會上做出了預測:在開發AI方面,谷歌預計投入1000多億美元。
作為谷歌人工智慧計劃最中心、最靈魂的人物,DeepMind實驗室的領導者,Hassabis的這番言論,也表達了對OpenAI的毫不示弱。
根據The Information報道,微軟和OpenAI計劃花1000億美元打造「星際之門」,這台超算預計包含數百萬個專用伺服器芯片,為GPT-5、GPT-6等更高級的模型提供動力。
當Hassabis被問及競爭對手花在超算上的巨額成本時,他輕描淡寫地指出:谷歌的花費可能會超出這個數位。
我們現在不談具體的數位,不過我認為,隨著時間的推移,我們的投資會超過這個數。
如今,生成式AI的熱潮已經引發了巨大的投資熱。
根據Crunchbase的數據,僅AI初創企業,去年就籌集了近500億美元的資金。
而Hassabis的發言表明,AI領域的競爭絲毫沒有放緩的意思,還將更加白熱化。
谷歌、微軟、OpenAI,都在為「第一個到達AGI」這一壯舉,展開激烈角逐。
1000億美元的瘋狂數位
在AI技術上要花掉超千億美元,這1000億都花會花在哪裏呢?
首先,開發成本的大頭,就是芯片。
目前這一塊,輝達還是說一不二的老大。谷歌Gemini和OpenAI的GPT-4 Turbo,很大程度上還是依賴輝達GPU等第三方芯片。
模型的訓練成本,也越來越昂貴。
史丹佛此前釋出的年度AI指數報告就指出:「SOTA模型的訓練成本,已經達到前所未有的水平。」
報告數據顯示,GPT-4使用了「價值約7800萬美元的計算量來進行訓練」,而2020年訓練GPT-3使用的計算量,僅為430萬美元。
與此同時,谷歌Gemini Ultra的訓練成本為1.91億美元。
而AI模型背後的原始技術,在2017年的訓練成本僅為900美元。
報告還指出:AI模型的訓練成本與其計算要求之間存在直接關聯。
如果目標是AGI的話,成本很可能會直線上升。
1.9億美元:從谷歌到OpenAI,訓練AI模型的成本是多少
說到這裏,就讓我們盤一盤,各大科技公司訓練AI模型所需的成本,究竟是多少。
最近的【人工智慧指數報告】,就披露了訓練迄今為止最復雜的AI模型所需要的驚人費用。
讓我們深入研究這些成本的細分,探討它們的含義。
Transformer(谷歌):930美元
Transformer模型是現代AI的開創性架構之一,這種相對適中的成本,凸顯了早期AI訓練方法的效率。
它的成本,可以作為了解該領域在模型復雜性和相關費用方面進展的基準。
BERT-Large(谷歌):3,288美元
與前身相比,BERT-Large模型的訓練成本大幅增加。
BERT以其對上下文表征的雙向預訓練而聞名,在自然語言理解方面取得了重大進展。然而,這一進展是以更高的財務成本為代價的。
RoBERTa Large(Meta):160美元
RoBERTa Large是BERT的一個變體,針對穩健的預訓練進行了最佳化,其訓練成本的躍升,反映了隨著模型變得越來越復雜,計算需求也在不斷提高。
這一急劇增長,凸顯了與突破人工智慧能力界限相關費用在不斷上升。
LaMDA (谷歌): $1.3M美元
LaMDA旨在進行自然語言對話,代表了向更專業的AI應用程式的轉變。
訓練LaMDA所需的大量投資,凸顯了對為特定任務量身客製的AI模型需求的不斷增長,後者就需要更廣泛的微調和數據處理。
GPT-3 175B(davinci)(OpenAI):$4.3M
GPT-3以其龐大的規模和令人印象深刻的語言生成能力而聞名,代表了AI發展的一個重要裏程碑。
訓練GPT-3的成本,反映了訓練如此規模的模型所需的巨大算力,突出了效能和可負擔性之間的權衡。
Megatron-Turing NLG 530B (微軟/輝達): $6.4M
訓練Megatron-TuringNLG的成本,說明了具有數千億個參數的更大模型的趨勢。
這種模型突破了AI能力的界限,但帶來了驚人的訓練成本。它大大提高了門檻,讓業領導者和小型參與者之間的差距越拉越大。
PaLM(540B)(谷歌):$12.4M
PaLM具有大量的參數,代表了AI規模和復雜性的巔峰之作。
訓練PaLM的天文數位成本,顯示出推動AI研發界限所需的巨大投資,也引發了人們的質疑:這類投資真的是永續的嗎?
GPT-4 (OpenAI): $78.3M
GPT-4的預計訓練成本,也標誌著人工智慧經濟學的範式轉變——AI模型的訓練費用達到了前所未有的水平。
隨著模型變得越來越大、越來越復雜,進入的經濟壁壘也在不斷升級。此時,後者就會限制創新,和人們對AI技術的可得性。
Gemini Ultra(谷歌):$191.4M
訓練Gemini Ultra的驚人成本,體現了超大規模AI模型帶來的挑戰。
雖然這些模型表現出了突破性的能力,但它們的訓練費用已經達到了天文數位。除了資金最充足的大公司之外,其余的企業和組織都被擋在了壁壘之外。
芯片競賽:微軟、Meta、谷歌和輝達爭奪AI芯片霸主地位
雖然輝達憑借長遠布局在芯片領域先下一城,但無論是AMD這個老對手,還是微軟、谷歌、Meta等巨頭,也都在奮勇直追,嘗試采用自己的設計。
5月1日,AMD的MI300人工智慧芯片銷售額達到10億美元,成為其有史以來銷售最快的產品。
與此同時,AMD還在馬不停蹄地加大目前供不應求的AI芯片的產量,並且預計在2025年推出新品。
4月10日,Meta官宣下一代自研芯片,模型訓練速度將獲巨大提升。
Meta訓練和推理加速器(MTIA)專為與Meta的排序和推薦模型配合使用而設計,這些芯片可以幫助提高訓練效率,並使實際的推理任務更加容易。
同在4月10日,英特爾也透露了自家最新的AI芯片——Gaudi 3 AI的更多細節。
英特爾表示,與p00 GPU相比,Gaudi 3可以在推理效能上獲得50%提升的同時,在能效上提升40%,並且價格更便宜。
3月19日,輝達釋出了「地表最強」AI芯片——Blackwell B200。
輝達表示,全新的B200 GPU可以憑借著2080億個晶體管,提供高達20 petaflops的FP4算力。
不僅如此,將兩個這樣的GPU與一個Grace CPU結合在一起的GB200,可以為LLM推理任務提供比之前強30倍的效能,同時也可大大提高效率。
此外,老黃還曾暗示每個GPU的價格可能在3萬到4萬美元之間。
2月23日,輝達市值一舉突破2萬億美元,成為了首家實作這一裏程碑的芯片制造商。
同時,這也讓輝達成為了美國第三家市值超過2萬億美元的公司,僅次於蘋果(2.83萬億美元)和微軟(3.06萬億美元)。
2月22日,微軟和英特爾達成了一項數十億美元的客製芯片交易。
據推測,英特爾將會為微軟生產其自研的AI芯片。
2月9日,【華爾街日報】稱Sam Altman的AI芯片夢,可能需要高達7萬億美元的投資。
「這樣一筆投資金額將使目前全球半導體行業的規模相形見絀。去年全球芯片銷售額為5270億美元,預計到2030年將達到每年1萬億美元。」