當前位置: 華文世界 > 科技

AI運算受限電力?微軟工程師:同州部署超過10萬片H100,電網就會崩潰

2024-03-28科技

隨著AI運算要求越來越快,能源也成為值得擔憂的議題。雖然Open AI的GPT-5尚未釋出,但目前有訊息稱OpenAI似乎已著手訓練GPT-6,而外傳7月釋出Llama 3的Meta,也有望提早至6月推出。

AI創業公司OpenPipe聯合創辦人Kyle Corbitt在社交媒體平台X上分享,GPT-5有望4月下旬釋出,Meta Llama 3則是6月釋出,以打敗另一家法國小創業公司Mistral。

GPT-5 AND LLAMA 3 TIMELINE LEAKS

Highest confidence rumors I've heard are late April for GPT-5 and early June for Llama 3 (expected to beat Mistral at all sizes).

Anyone hear something different? Reply in thread to confirm.

— Kyle Corbitt (@corbtt)March 25, 2024

接著Corbitt釋出另篇文章,表示與微軟工程師討論有關GPT-6的訓練集群專案及在新版本中遇到的問題。該位工程師抱怨對不同區域的GPU之間無限級別連線(infiniband- class links),實在非常痛苦。

Corbitt續問「為何不將訓練集群集中同一個區域?」對方回應有嘗試過,但無法在同一州(a single state)下放至超過10萬片p00 GPU,否則會導致電網癱瘓。

Spoke to a Microsoft engineer on the GPT-6 training cluster project. He kvetched about the pain they're having provisioning infiniband- class links between GPUs in different regions.

Me: 「why not just colocate the cluster in one region?"

Him: 「Oh yeah we tried that first. We…

— Kyle Corbitt (@corbtt)March 25, 2024

目前不確定微軟工程師所提到的a single state是指同一州,還是指同一個狀態,但據市調機構Factorial Funds報告顯示,OpenAI的文本生成影片模型Sora一個月內使用4,200至10,500片p00 GPU,其中單個p00能在約12分鐘內生成一個一分鐘影片,或者每小時約5個一分鐘影片。而在Sora高峰時期需要72萬個p00 GPU。換言之,Sora高峰時期如果訓練集群擺放在同個位置,可能是七個州的電網崩潰。

Corbitt指出,不確定新GPT版本叫GPT-5、GPT-4.5還是帶企業擴充套件的GPT-4J。但不可否認的是,越強大的AI出來,開發這些模型的成本也就越來越高,面臨的環境問題也越大。

Open AI剛剛免費釋出GPT-4 Turbo,目前已知GPT-5計劃今年稍晚時釋出。

(首圖來源:shutterstock)