當前位置: 華文世界 > 科技

AI時代,需要什麽樣的伺服器作業系統?

2024-09-02科技

來源:光錐智能

文|劉俊宏

編|王一粟

AI時代,中國的伺服器系統正在面臨一場雙重挑戰。

今年6月底,最主流的開源伺服器作業系統CentOS正式停服,找一個合適的作業系統進行遷移成為了必選項。同時,AI時代的到來,大模型追求更大、更快的訓練及推理,也對整個算力產業提出了算力形態多元異構、算力供給服務化、算力套用智能化,這些更高、更新的要求。

眾所周知,只有強大的雲端運算,才能孕育強大的AI大模型,而雲端運算的基礎就是伺服器。如何管理好這些伺服器?作業系統是最底層、最關鍵的平台軟件。夾在行業和時代的劇變中,IT行業的從業者們需要一個足夠穩定、社區能夠長期支持和AI原生的伺服器OS,以此角逐接下來的「AI十年計劃」。

正如中國工程院院士、龍蜥高級顧問團代表陳純所言,「雲端運算的排程與彈性,大模型的訓練與推理,都離不開一個穩定、安全、高效的伺服器作業系統」。

8月30日,在第二屆龍蜥作業系統大會上,國內開源作業系統根社區龍蜥,推出官方正式版Anolis OS 23 ,可以更好支撐模型訓練和AI套用,全面相容國內外主流CPU、GPU架構。

最令人驚喜的,還是龍蜥OS當前已經有了超800萬套的裝機量。這意味著,龍蜥OS在當前超過1000家合作夥伴和100萬使用者的落地中,初步實作了可長期自迴圈的生態,是國內規模最大、生態最全面的伺服器作業系統之一。

而這僅僅是開始。

參考PC端的Windows系統在英特爾和眾多開發者的幫助下,最終稱霸全球的經驗: 一款作業系統的成功,背後其實是整個上下遊產業合作共創的結果。

面向未來,龍蜥也正式啟動了「Anolis OS 23生態衍生」、「CentOS替代」和「AI套用推廣」的三大計劃,正在從底層生態、滿足市場需求和AI套用三個層面做全力追趕。

作為軟件產業的三座大山之一,中國本土伺服器系統正在邁入新階段,AI大模型的機遇中,甚至還有了彎道超車的可能。

AI原生的作業系統,到底長啥樣?

「Android之父」安迪·魯賓曾觀察到作業系統存在以12年為周期更叠的現象,並在移動互聯時期網依然昌盛的2017年便提到,「AI是下一個重要作業系統」。

他的論斷還有待時間的檢驗,但在新一輪AI技術的迅猛發展下,手機、PC等各種硬件,都開始擁有了所謂的AI原生作業系統,以更好地支持AI推理和套用。

然而,在承接最關鍵的AI大模型訓練任務的伺服器端,用於大模型訓練的AI化作業系統卻遲遲沒有到來。

背後原因,在阿裏雲基礎軟件部副總裁、龍蜥社區理事長馬濤看來,主要是不同端的作業系統,要面臨和處理的場景、難度完全不一樣。

「手機AI,可能作業系統去支持喚醒Siri;桌面作業系統,比如windows,可能是支持AI編個日程、寫個總結之類的任務。但伺服器作業系統是完全不一樣的,大模型訓練現在基本上跑在雲上,這對排程和管理算力資源的伺服器作業系統,就提出了更大的挑戰。另一方面,一個作業系統執行在上萬台或者幾十萬台的伺服器集群上,需要AI去分析系統的疑難雜癥和風險。」

伺服器硬件廠商的感受更為明顯。浪潮雲海首席科學家、龍蜥社區副理事長張東就直言, 「 AI技術這兩年發展太快,底下的硬件和作業系統都是被拉著走的。」

「使用者說一台伺服器裏面塞8塊卡不行,要塞16卡;儲存60塊盤不行,得配100塊,很快就200塊了,這逼著硬件廠商把機器越做越大。集群規模也越來越大,一百張卡不夠,要一千張,一萬張,這些硬件資源往上跑,怎麽高效管理和排程?作業系統是解決這個問題非常重要的環節。」

一方面,作業系統本身要能處理AI相關硬件的爆發式增長和異構硬件的相容等問題;另外一方面,需要用AI的能力去改造作業系統,把適配、搭建環境和系統等復雜的工作都自動處理掉,讓使用者很方便地去直接使用。

「我覺得把作業系統往AI方向發展的未來是確定的,但是現在對AI的適應實際上還遠遠不夠。伺服器作業系統怎麽進一步真正變成AI原生,更好支撐AI的訓練和推理,同時作業系統本身也能夠變成一個智能體,還需要更大級別的創新。」張東如此總結道。

龍蜥嘗試解決這個問題,一邊是 「System for AI」,一邊是「AI for System」。

具體而言,「System for AI」主要是系統針對大模型訓練和推理的相容性、穩定性和安全性進行了大量的最佳化工作,以更好支撐AI發展。

全新釋出的Anolis OS 23正式版,采用 ANCK 6.6 內核,顯著增強了對多平台的相容性,已經全面支持國內外主流的CPU、GPU架構。在針對AI場景大量使用的AI框架中,提供了包括OpenVino在內的原生支持。

並且,Anolis OS 23 適配更新、更豐富、更安全的 AI 容器服務生態(Alibaba cloud AI containers),包括 AI on NVIDIA、 AI on AMD、AI on Intel 和 AI on 國產 GPU 等多生態場景。

容器服務承擔了目前80%的雲上AI任務,是最主流的AI開發方式,龍蜥新版本的這一叠代,勢必會幫助更多AI推理和套用直接從龍蜥作業系統上長出來。

在「AI for System」這邊,則主要是考慮到了使用者在使用龍蜥過程中的效率和易用性,強化了AI原生作業系統的優勢。龍蜥作業系統利用利用大模型打造了AI助手Copilot,能夠回答使用者問題,執行簡單操作,分析系統問題。

此外,龍蜥還探索利用AI能力去輔助上系統管理人員、研發人員、安全和運維人員更好地使用好這個作業系統等,使用者用起來就會感覺它是根據AI做的設計,真正體會到「AI原生」的意涵。

好的作業系統,需要軟硬件全產業鏈協同

「作業系統由幾萬個(軟件)包構成,這幾萬個包就像是街道上的幾萬只貓,作業系統需要讓幾萬只貓一會排成W形、一會兒排成S形,難度可想而知。」在統信軟件伺服器產品線總經理崔湛看來,做出一個好的作業系統並不容易。

更難的是做一個大家都用的、成功的作業系統。縱觀整個IT行業發展史,這極其仰賴於產業鏈上下遊的共同努力。

在PC時期,是微軟Windows早期堅定「抱緊」英特爾。或許,英特爾的X86架構並不一定是所有CPU指令集的最優選,從DOS系統叠代的Windows也不一定是最好的PC作業系統。但在PC早期滲透的時期,「Wintel」聯盟憑借軟硬件一體的合作,與PC行業的第一批程式設計師們,共創了Windows與Intel的全球的霸主地位。

在流動互聯網時期,這一合作成了安卓與ARM。安卓追求更便宜、更客製化的芯片硬件,ARM架構恰恰是當時最好的選擇,雙方強強聯手,鑄造了流動互聯網時代的AA傳奇(Android&ARM)。

透過Windows和Android的成功經驗看到,作業系統要想成功,除了需要本身效能足夠好用外,更需要從硬件到軟件的全產業鏈協同創新。

作為龍蜥社區創始成員的阿裏雲,前兩年就提出「一雲多芯」,底下是不同廠商、不同功能的芯片,上面是一朵統一輸出算力的雲。

要達成這樣的目標,就必須要在伺服器作業系統這一關鍵的平台軟件層實作最大程度的相容。

龍蜥新釋出的Anolis OS 23正式版,顯著增強了對多平台的相容性,還更新了開發工具和語言,在GCC上針對國產芯片平台做了專項最佳化,可帶來11%的效能提升。

龍蜥全面相容國產芯片,對國際主流芯片也能很好支撐。

英特爾也是龍蜥社區的理事單位之一,英特爾資深技術總監、龍蜥社區副理事長楊繼國就提出,「企業從CentOS過渡到龍蜥以後,在效能和相容上不會有任何障礙」。

一方面,英特爾最新的芯片產品也能和龍蜥相容,比如Anolis OS23就率先支持了英特爾今年剛剛釋出的至強6芯片平台;另一方面,對於廣泛使用的英特爾芯片,英特爾也能持續在龍蜥社區提供相容性和生態擴充套件的支持。

「從CentOS遷移到龍蜥,我們發現對新平台的支持、對於芯片的最佳化,龍蜥可能做得更好,並且做的更加快,而且效率更高」。楊繼國稱。

楊繼國還透露,英特爾在龍蜥社區做了很多工作,讓龍蜥作業系統與AI硬件能更好相容;在軟件框架層面,英特爾則把開放的異構編程框架引入整合到龍蜥社區裏面去,讓使用者能夠以一種非常開放、開源的模式做AI開發工作。

另一大芯片領域的巨頭Arm,也在探索如何更好貢獻於龍蜥社區。

本屆龍蜥大會上, Arm、阿裏雲、平頭哥、中興新支點等公司也聯合宣布,將組建龍蜥社區Arm工作群組,協同推進基於Arm架構的基礎軟件生態。

作業系統的橋梁紐帶作用透過開源社區的協作,放大了體系的效果。透過各方的努力,龍蜥社區如今已經聚集了超過1000家的整個社區參與者和夥伴,是國內規模最大、生態最全面的作業系統根社區之一。

這顯然也會有益於開源社區裏的每一個成員。

阿裏雲基礎設施事業部總經理蔣江偉更是直言,得益於眾多通用異構芯片的廠商,特別是在國產自研芯片廠商,在龍蜥社區的積極參與和貢獻,阿裏雲可以更好的發展一雲多芯的戰略,在獲得更健壯的硬件供應鏈保障的同時,也實作了統一資源的管理和排程,進而向廣大的客戶提供了更高效的算力基礎設施服務。

統一內核,堅持開源,破解碎片化難題

數據顯示,2023年,中國平台軟件市場高速增長,規模達816.6億元,同比增長17.4%。中國作業系統市場增速進一步加快,高達23.2%,而作業系統市場增長的動力主要來自伺服器作業系統。

作業系統市場迅猛發展,也伴隨著底層內核不統一、版本碎片化的煩惱。

張東直言:「作業系統發展出現了很多版本,國內情況也比較復雜,可能比國外情況還復雜。 作為整機廠商,在過去的套用推廣過程裏面臨的碎片化問題,對我們來講就是一個很頭疼的問題。因為我們任何一款器材在出廠之前都是要經過大量的測試,每引入一個新的部件都要進行測試,測試過程裏面市面上主流作業系統都要跑一遍。」

龍蜥社區為此提出了新的方案。

「我們希望透過Anolis OS23,把很多相容性問題透過標準、規範等方式確認下來,形成一個比較統一、穩定的基礎。比如硬件廠商只要適配了Anolis OS23,理論上來說可以適配任何一款基於Anolis OS23的商業版本,比如目前已經有的12家衍生版本,都可以適配,這樣讓整個作業系統生態鏈裏的上下遊成本都降低。」馬濤解釋,這就是Anolis OS23生態衍生計劃的最重要的意義。

Anolis OS 23生態衍生計劃,需要整合技術的內核、供應鏈等社區參與的標準,並行行相應的商業衍生版、社區開源版等不同版本。這樣,整個中國及未來商業上下遊的軟件生態,才能一套機制統一內核、工具鏈和KAPI,進而推動整個中國國產化作業系統的生態發展。

在龍蜥大會上,中科院院士王懷民還特別提到, 在國家部委的協調下,龍蜥社區等中國開源作業系統社區,已經就Linux內核版本的選擇以及相關執行時程式包的選擇上達成了一致。

除Anolis OS 23生態衍生計劃外,龍蜥社區還推出了「CentOS替代計劃」和「AI套用推廣計劃」兩大計劃。

CentOS今年6月30日徹底停服,許多企業面臨遷移和連續性的挑戰。龍蜥社區做了大量的APP、軟件生態的適配,希望透過Anolis OS23、借助各種各樣的版本升級和遷移工具,讓使用者更方便地遷移到龍蜥上。

在崔湛看來,龍蜥社區非常有擔當:「CentOS停服會導致業務停掉,停服以後到使用者真正完完全全脫離這個平台需要時間,龍蜥社區成立一個組專門做CentOS的運維監管,統信軟件也參與其中,做了大量修補程式維護和升級的支持。」

「AI套用推廣計劃」,則是代表了未來。本次大會,龍蜥社區首次推出「AI原生作業系統」發展路線,圍繞AI時代也推出了AI容器映像、智能運維AIOps、OS Copilot文件建設三大計劃,持續推動龍蜥作業系統在Sys for AI和AI for Sys兩個方向的持續突破,重塑作業系統在AI時代的核心競爭力。

馬濤總結到:「三大計劃,簡單說是我們以Anolis OS23為核心,在‘繼往’和‘開來’兩個方面推進,最終透過以龍蜥作業系統為核心推動作業系統開源生態發展。」

開源開放的生態,是龍蜥社區的關鍵詞,這也成為吸引眾多頭部企業參與龍蜥的原因之一。

楊繼國坦言,自己做了二十多年的開源,在開源本身技術上、理念上中國和國際沒有太大區別: 「做開源的人認同這個理念:開放的心態、開放的開發模式共同推動科技發展。」

他也觀察到,與國外開源社區由商業公司主導、有公司商業目的不同,中國的開源更像一個真正的社區,大家有同樣的目標,一起參與去貢獻。

「像龍蜥社區,我們堅持開放、中立,而且是一人一票的社區,所以基本上這個社區能夠有一個更加好的機制,把共同的商業夥伴聚在一起,包括英特爾,和英特爾的競爭對手,都在社區裏。從科技發展角度來說,更能夠促進開源社區的發展,這是更加良好的模式,我們英特爾也是非常願意投入到像龍蜥這樣的開源社區的。」楊繼國說。

結語

「作業系統市場增長的動力主要來自伺服器作業系統,一方面是行業資訊化建設中的新增市場需求,另一方面是人工智能伺服器放量帶來的新增市場需求。」 賽迪顧問股份有限公司總裁助理高丹說道。

當前,計算產業面臨著以人工智能為驅動力的新變革,這一變革會對整個計算產業的生態格局,以及基礎設施,軟硬件供應鏈的演進帶來深刻的影響和重塑。

伺服器作業系統社區作為這一基礎設施不可或缺的一環,機遇和挑戰並存。未來幾年,結合中國產業的發展趨勢,我們也會看到CentOS替代和國內開源生態也會因這一變革,並加速演進。

從中國本土孕育成長,以龍蜥為代表的開源社區,未來還要走向世界。

「透過龍蜥社區培養中國開發者參與到國際社區,讓來自中國的作業系統和開發者,在國際上做更多關鍵工作,甚至成為標準的制定者,或者核心元件維護者,將一些我們有優勢的技術和理念,貢獻於全球開源社區,共同推動國際開源專案的發展。」馬濤說。