AI運算受限電力？微軟工程師：同州部署超過10萬片H100，電網就會崩潰

2024-03-28科技

隨著AI運算要求越來越快，能源也成為值得擔憂的議題。雖然Open AI的GPT-5尚未釋出，但目前有訊息稱OpenAI似乎已著手訓練GPT-6，而外傳7月釋出Llama 3的Meta，也有望提早至6月推出。

AI創業公司OpenPipe聯合創辦人Kyle Corbitt在社交媒體平台X上分享，GPT-5有望4月下旬釋出，Meta Llama 3則是6月釋出，以打敗另一家法國小創業公司Mistral。

GPT-5 AND LLAMA 3 TIMELINE LEAKS

Highest confidence rumors I've heard are late April for GPT-5 and early June for Llama 3 (expected to beat Mistral at all sizes).

Anyone hear something different? Reply in thread to confirm.

— Kyle Corbitt (@corbtt)March 25, 2024

接著Corbitt釋出另篇文章，表示與微軟工程師討論有關GPT-6的訓練集群專案及在新版本中遇到的問題。該位工程師抱怨對不同區域的GPU之間無限級別連線（infiniband- class links），實在非常痛苦。

Corbitt續問「為何不將訓練集群集中同一個區域？」對方回應有嘗試過，但無法在同一州（a single state）下放至超過10萬片p00 GPU，否則會導致電網癱瘓。

Spoke to a Microsoft engineer on the GPT-6 training cluster project. He kvetched about the pain they're having provisioning infiniband- class links between GPUs in different regions.

Me: 「why not just colocate the cluster in one region?"

Him: 「Oh yeah we tried that first. We…

— Kyle Corbitt (@corbtt)March 25, 2024

目前不確定微軟工程師所提到的a single state是指同一州，還是指同一個狀態，但據市調機構Factorial Funds報告顯示，OpenAI的文本生成影片模型Sora一個月內使用4,200至10,500片p00 GPU，其中單個p00能在約12分鐘內生成一個一分鐘影片，或者每小時約5個一分鐘影片。而在Sora高峰時期需要72萬個p00 GPU。換言之，Sora高峰時期如果訓練集群擺放在同個位置，可能是七個州的電網崩潰。

Corbitt指出，不確定新GPT版本叫GPT-5、GPT-4.5還是帶企業擴充套件的GPT-4J。但不可否認的是，越強大的AI出來，開發這些模型的成本也就越來越高，面臨的環境問題也越大。

Open AI剛剛免費釋出GPT-4 Turbo，目前已知GPT-5計劃今年稍晚時釋出。

（首圖來源：shutterstock）