當前位置: 華文世界 > 科技

無問芯穹CEO夏立雪:啟用異構集群算力資源,做AI模型算力的「超級放大器」

2024-09-03科技
算力是AI發展的前哨和基石,大模型訓練和推理需要強大計算資源支撐。在大模型尺度定律(Scaling Law)的作用下,全球範圍內掀起算力競賽,算力成本高昂。
上海無問芯穹智能科技有限公司聯合創始人兼CEO夏立雪對澎湃科技表示,「算力成本每降低90%,就會出現更多的新可能性。無論是實驗性試錯,還是開發更強大的通用大模型,現在都卡在了算力成本上,以億為規模的算力成本太高,燒不起錢。小公司有很多好想法,互聯網時代幾個人湊一湊,一個月就能做個手機APP,但現在需要花幾千萬維護半年的算力資源,成本太高了。」
上海無問芯穹智能科技有限公司聯合創始人兼CEO夏立雪。
成立於2023年的無問芯穹入駐在上海徐匯區的模速空間,9月2日宣布完成近5億元A輪融資,在成立一年半內,無問芯穹累計已完成近10億元融資。上海等地的一線國資、市場化頭部機構以及券商直投等入股無問芯穹,多方協同擬化解大模型算力瓶頸。
夏立雪說,「能源公司確定每一度電的價格,模型公司決定每一個token解決多少問題,無問芯穹最佳化每一度電提供多少個token的能力。全行業拼起來才是降低算力成本的完整鏈條。」
十多年學術積累投入產業界
無問芯穹本輪融資聯合領投方為社保基金中關村自主創新專項基金(君聯資本擔任管理人)、啟明創投和洪泰基金,跟投方包括聯想創投、小米、軟通高科等戰略投資方,國開科創、上海人工智能產業投資基金(臨港科創投擔任管理人)、徐匯科創投等國資基金,以及順為資本、達晨財智、德同資本、尚勢資本、森若玉坤、申萬宏源、正景資本等財務機構。募集的資金將用於加強技術人才吸納與技術研發,推動產品商業化發展,啟用異構集群算力資源等,做AI模型算力的「超級放大器」。
算力與單芯片算力、單芯片算力在場景中的效率以及芯片數量相關。其中,單芯片算力效能取決於芯片企業的開發,單芯片算力在場景中發揮出的效率涉及軟硬協同,最終的目標是將所有多元異構的芯片整合成大系統。因此,大模型的實際可用算力不僅取決於芯片的理論算力,還可透過最佳化系數放大算力利用效率,透過集群規模放大整體算力規模。
「GPT-4之後演算法能力的發展進入了一個相對放緩甚至有人說是停滯的階段,背後的邏輯是支撐演算法所需要的算力遇到了瓶頸,目前沒有人能夠實作更大規模地增加單個模型計算量的大系統,需要研發和構建支撐模型能力邁向下一代的算力系統。」夏立雪表示,與國際上模型層與芯片層「相對集中」的格局相比,中國的模型與芯片更加「百花齊放」。大量異構芯片也形成了「生態豎井」,不同硬件生態系封閉且互不相容,為算力使用方帶來技術挑戰,造成算力資源浪費。「A加速卡的開發者不能夠快速把他的工作遷移到B開發者的卡上,也沒有辦法很好將多種異構算力構成整體的大系統快速完成大模型的訓練或推理。」他表示,「生態豎井」成為構建AI Native(AI原生)基礎設施的難點,也是當前大模型行業面臨「算力荒」的一個重要原因。
無問芯穹由清華大學電子工程系教授、系主任汪玉發起,他帶領的NICS-EFC實驗室早在2008年便投入到面向智能場景的軟硬件聯合最佳化技術路線,提出「演算法創新-編譯對映-硬件架構」聯合最佳化的設計範式。夏立雪是汪玉的博士生,畢業後的五年裏在阿裏雲從事雲端運算技術及產品開發。另一位聯合創始人、CTO顏深根是中科院博士、北卡州立大學存取學者,曾任商湯科技數據與計算平台部執行研究總監,負責商湯萬卡集群搭建,現任清華大學電子工程系副研究員;聯合創始人、首席科學家戴國浩,同樣畢業於清華大學電子工程系NICS-EFC實驗室,現任上海交通大學長聘教軌副教授、清源研究院人工智能設計自動化創新實驗室負責人。十幾年的學術積累逐步邁向產業界,他們希望在大模型時代為人工智能提供設施,聯合最佳化軟硬件,打通算力供需,把多元異構算力用起來,讓全國各地的異構算力發揮潛能。
「在產業界有了各自的積累,我們組合起來。我們的商業模式也不是純粹賣軟件服務,而是把技術疊加在了我們現在所管理的各種集群上。」夏立雪表示,通用大模型的算力需求更穩定,文生圖和文生影片模型對算力動態性要求高,對於大模型研發公司和大模型套用開發公司來說,無問芯穹就像淘寶一樣,利用平台介面讓大家輕松地把算力快速用起來,滿足個人化的算力需求。
讓算力像水龍頭一樣即開即用
今年7月,無問芯穹推出千卡規模異構芯片混訓平台,千卡異構混合訓練集群算力利用率最高97.6%。「我們比其他基準方案平均高出約30%,這意味著在相同的多元芯片的機房條件下/集群條件下,無問芯穹可將訓練總時長壓縮30%。」夏立雪表示,無問芯穹Infini-AI大模型開發與服務雲平台已整合大模型異構千卡混訓能力,具備萬卡擴充套件性,支持六種異構芯片的大模型混合訓練。自平台上線以來,已有Kimi、Liblib AI、獵聘、生數科技、智譜AI等多個大模型行業頭部客戶在Infini-AI異構雲平台上穩定使用異構算力,並享受無問芯穹提供的大模型開發工具鏈服務。
「所有大模型套用都講求落地,落地就要考慮性價比、成本、套用性,很多大模型落地就卡在了成本和套用性上,很多人有很好的想法,甚至可能懂一些人工智能模型,但僅僅給他一台輝達的裸機,他們並不會用。另外,即便有研發能力,大模型動輒上億的投入,也需要考慮成本影響。」夏立雪表示,當前裸金屬算力超量,這些算力只有機器和網絡儲存值,無法開箱即用,也只有少量超大規模的公司具備裸金屬算力的自建能力。
「任何一家芯片被成規模地使用,都是一件難事。在產業競爭能容忍的時限內,預訓練一個僅7B規模的模型就需要千卡級別的算力,這一過程的調優工作極為復雜;不同機器之間存在通訊效率差異,進一步增加了最佳化難度;另外,如何在不改變任務計算周期情況下與模型結合並深度最佳化等…這些都是挑戰。」他表示,無問芯穹的初衷是把算力服務變成水電煤氣一樣,開發者隨時開啟水龍頭或閥門隨時就能使用,想用多少無問芯穹就能找到多少,讓算力使用更加靈活、穩定、簡單,降低模型落地門檻。「雲服務公司的典型模式是大客戶帶著小客戶跑,大客戶為雲服務公司提供經驗,雲服務公司將這些經驗復制給小客戶。我們也會和大合作方做深度技術交流,但我們真正服務的還是那些專註於做模型套用的公司,這些公司不再需要構建一個百人團隊來維護算力集群。」
當前國內算力仍然不足,國產芯片沒有被完全用起來,夏立雪認為,正是由於中間軟件層的缺失,導致國內芯片公司無法直接接觸到客戶,產品落後國外2-3代。「我們希望透過我們的平台,把所有芯片整合起來,芯片商給我們供應好用的算力,我們幫他們賣出去。開發者使用時不需要辨別用的是什麽卡,就像開啟水龍頭時,不需要知道這是哪個水庫的水,但一樣可以使用它,帶動建立國產芯片生態。」由於能把低成本國產芯片用起來,這也為客戶帶來了高性價比的算力。
「大模型未來一定能把各行各業的智能型任務都解決,只是需要更快速的叠代、更低的試錯成本、更多的使用者反饋,在這些事情背後,算力效率很重要。」夏立雪表示,接下來無問芯穹將繼續擴大算力規模,降低算力成本,助推大模型技術演進和套用落地,讓大模型產業更快速爆發。
澎湃新聞記者 張靜
(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)