當前位置: 華文世界 > 科技

1000億美元宇宙級豪賭!微軟OpenAI星際之門AI超算,電力能耗驚人

2024-03-30科技

最新的外媒報道透露,微軟和OpenAI正在籌劃一個宏偉的專案——「星際之門」數據中心,旨在為OpenAI提供前所未有的計算能力。

具體來看:

  • 微軟的高層已經規劃,最早於2028年啟動這個超級計算專案。

  • 這台超級電腦的電力需求將達到史無前例的水平。

  • OpenAI計劃在明年初推出它的下一個重大升級。

  • 這個「星際之門」超級計算中心,預計將裝備數百萬個專用伺服器芯片!整個專案的預算高達1150億美元。

    這筆巨額的資金,將由微軟負責支付。

    據報道,「星際之門」預計在2028年推出,並將在2030年前進一步擴充套件。

    而它所需的電力,可能高達5000兆瓦。

    回顧一下,就在本周三,我們還報道了OpenAI使微軟電網崩潰的新聞。據悉,當時為了部署GPT-6的10萬個p00訓練集群,整個電網都發生了崩潰。

    看起來,這個10萬卡集群,可能是「星際之門」早期的雛形。

    而GPT-5的不斷延期,也讓人開始質疑,微軟能否在這個專案上收回成本?

    當我們對比當前一些最大的數據中心,「星際之門」的成本是它們的100倍!

    在未來六年內,微軟和OpenAI計劃建設的這系列超級計算設施中,「星際之門」將是最大的一個。

    顯然,微軟和OpenAI對AI技術的未來充滿了信心,這將是他們在未來十年中最重要的合作之一。

    但仍然存在一個問題:對於1000億美元的巨額投資,微軟真的能收回成本嗎?

    之前,微軟已經向OpenAI投資了超過130億美元,以確保OpenAI能在微軟的數據中心執行ChatGPT。

    作為回報,微軟獲得了存取OpenAI核心技術的許可權,並且可以獨家向雲端運算客戶(如摩根士丹利)提供這項技術。此外,微軟的Office、Teams和Bing的AI Copilot也將整合OpenAI的技術。

    「星際之門」能否按計劃前進,關鍵看GPT-5的表現。

    那些期待已久的GPT-4.5和GPT-5,一次次的傳聞,最終都沒成真。

    這也讓OpenAI對微軟的承諾——準時交付新模型——顯得有點不靠譜。

    一些人開始懷疑,AI的未來真的能預測嗎?

    但是,Sam Altman站出來強烈反駁這個觀點。他認為,GPT-5發展的主要障礙,就是缺乏足夠的伺服器資源。

    電力和芯片:成本驚人

    如果「星際之門」成為現實,它提供的算力,將遠遠超過現在的微軟鳳凰城數據中心。

    不過,這背後的電力和芯片投入也是一筆不小的開銷。

    初步估算,「星際之門」要運轉起來,至少需要數千兆瓦的電力,這相當於幾個大型數據中心的電力需求。

    再加上,芯片的采購成本也是一大筆開銷。

    這麽巨大的投入,能得到什麽樣的回報?

    答案是:人工智能的最終形態——AGI(Artificial General Intelligence)。

    Digital Realty的技術長Chris Sharp指出,為了實作AGI,這種規模的投資是必不可少的。

    雖然投資規模巨大、前所未有,但一旦建成,這種超級電腦的巨額成本也將被大眾接受。

    AI超級計算的五個階段:朝向「星際之門」

    Altman和微軟團隊將AI超算的發展分成五個階段,其中「星際之門」是最後的階段。

    這個名字的靈感源自一部科幻電影,講述的是科學家發明了一種可以實作星系間旅行的裝置。

    盡管OpenAI提出了這個代號,但它可能不會被微軟正式采納。

    在「星際之門」之前,盡管所需資金相對較少,但仍遠超當前的數據中心建設成本。

    目前,微軟和OpenAI正處於第三階段。

    第四階段的超級電腦已經開工建設,預計將在2026年左右完工。

    據報道,僅微軟擴建數據中心的成本就高達10億美元,最終可能達到驚人的100億美元。

    而其中,計劃使用的輝達AI芯片將是主要開銷。

    業內人士分析,目前建設中的以AI為核心的數據中心,其芯片成本通常占總投資的一半。

    為了實作這個計劃,微軟可能需要花費超過1150億美元。這個數碼,比微軟去年在伺服器和器材上的支出多了3倍還要多。

    想象一下,根據2023年下半年的數據,微軟2024年的支出預計會達到約500億美元。

    Altman對算力不滿:競爭與成本上升

    Altman對手頭的算力感到非常不滿。他公開表示,現有的AI伺服器芯片遠遠不夠用,甚至私下裏抱怨,谷歌在短期內的算力可能會超過OpenAI。

    隨著對輝達GPU的需求激增,微軟和OpenAI這樣的大客戶,不得不面臨成本上漲的挑戰。

    這也是Altman想要建立自己的公司,研發能與輝達GPU相匹敵的芯片的原因之一。

    微軟的多重考慮:超越輝達

    除了控制成本,微軟支持Altman開發新芯片還有其他原因。

    由於GPU市場的繁榮,輝達成了重要的角色,能決定哪些客戶可以獲得更多的芯片資源。甚至輝達自己也開始提供雲服務了。

    因此,「星際之門」計劃不僅是為了給微軟和OpenAI提供更多選擇,比如AMD的GPU或微軟自研的AI芯片,也是為了減少對輝達的依賴。

    技術挑戰:芯片、網絡和能源

    實作「星際之門」的設想,需要克服多項技術難題。

    比如,一個提案是在單個機架中安裝更多的GPU,但這就需要有效的冷卻方案,以避免芯片過熱。

    此外,如何連線數以百萬計的GPU,選擇合適的網絡電纜,對快速傳輸海量數據至關重要。

    目前,微軟在超算中使用的是輝達的InfiniBand,但OpenAI一直在努力減少對輝達的依賴。

    據說,OpenAI希望在這個專案中采用更通用的乙太網路電纜,這是為了更高效的連線和傳輸。

    再說能源問題,據內部訊息,考慮到巨大的能源需求,公司可能會選擇核能作為替代能源。

    不久前,亞馬遜購買了賓夕法尼亞州一個能接入核能的數據中心地塊。微軟也對這個地塊很感興趣,甚至參與了競標。

    Altman認為,想要發展超級智能,可能需要在能源領域有所突破。很顯然,能源創新,在追求先進AI的道路上,將扮演關鍵角色,而核能或許是關鍵之一。

    AI計算:成本高、復雜度大

    AI計算與傳統計算完全不是一個量級,這就是為什麽各大公司對AI數據中心的每個細節都格外關註。GPU如何連線和冷卻,每一個小細節都可能導致巨大的成本變化。

    NVIDIA的創始人黃仁勛(老黃)甚至預測,為了滿足未來AI計算的需求,全球在接下來的四到五年內,需要投資高達1萬億美元來建設新的數據中心!

    至於芯片的過熱問題、網絡電纜的選擇和能源問題,短期內看起來都還沒有完美的解決方案。

    「星際之門」的地理位置和構造

    還有一個問題:「星際之門」會建在一個獨立的數據中心,還是由多個數據中心緊密連線而成?

    它會具體建在哪裏?

    這些問題目前都沒有明確答案。

    但有行業人士表示,當GPU集群位於同一個數據中心時,效率會更高。

    OpenAI推動微軟不斷前進演化

    事實上,自從2019年向OpenAI投資以來,微軟的數據中心就在不斷地前進演化。

    為了滿足OpenAI日益增長的算力需求,微軟建造了第一台包含數千個輝達GPU的GPU超算。

    僅幾年時間,這台超算就讓微軟花費了12億美元。

    而在今年和明年,微軟計劃為OpenAI提供的新伺服器,將包含數十萬個GPU!

    下一個裏程碑:GPT-5

    微軟和OpenAI的宏大抱負,這些都緊緊圍繞著OpenAI在「超級智能」領域的進展。

    想象一下,如果OpenAI能解決像癌癥治療、核聚變、全球暖化或火星殖民這類大問題,那麽金主自然不會吝惜資金支持。

    不過,這種級別的成就目前似乎還有些遙遠。

    盡管ChatGPT和Sora已經在全球獲得了龐大的使用者群,但OpenAI如何將這些使用者轉化為顯著的收入,這個問題還待解決。這種變現可能需要比預期更長的時間。

    對AI產品的銷售預期降低

    也正是因為這種情況,像亞馬遜和谷歌這樣的公司已經降低了對AI產品的銷售預期。主要原因之一就是成本實在太高。而且,在大型企業中部署面向百萬使用者的套用,工作量也非常巨大。

    Altman上個月表示,隨著研究人員投入更多的算力,AI模型將會變得更好,這被OpenAI稱為對話式AI的「縮放定律」。

    據內部訊息人士透露,OpenAI計劃在明年初釋出下一代大型語言模型(LLM)。

    在此之前,可能還會推出一些小幅改進的版本。

    更多的伺服器將為OpenAI增添底氣,堅信AI模型將取得新的突破。

    傳聞中的Q*和自我完善的AI

    比如,有傳聞稱Q*模型能夠解決之前沒有經過訓練的數學問題,這一點在面臨人類數據即將耗盡的情況下尤為重要。

    此外,還有傳聞稱,這些模型能夠辨識出現有模型的缺陷,例如GPT-4,甚至提出技術改進——換句話說,就是能夠自我完善的AI。

    看來,OpenAI越來越接近實作AGI的目標了。