當前位置: 華文世界 > 科技

唐蕊:AI算力加速光模組邁向T位元時代

2024-10-24科技

文 | 鈦資本研究院,演講 | 唐蕊(光纖線上資深分析師及執行主編)

AIGC帶來的超大算力需求拉動通訊基礎設施建設及擴容,光模組作為數據傳輸的基礎部件,需求首先迎來爆發。2022年為800G光模組商用元年,市場出貨量約為萬只級別;2023年逐步起量;2024年隨著大模型廠商加速AI建設,加單意願強烈、節奏頻繁,預計將迎來爆發式增長。同時隨著單波芯片速率的提升,輝達的B100和p00等產品將逐步標配1.6T光模組,光模組更新叠代也將加速。中國光模組企業占據全球60%以上的市場份額,進入市場較早,先發優勢顯著,拿下北美訂單具有高確定性,同時業績能見度高、落地性強。

不同光模組有哪些套用場景?邁向T位元時代後,不同材料平台有何機會?近期鈦資本邀請光纖線上資深分析師及執行主編唐蕊進行分享,她於2003年加入光纖線上,長期觀察、研究中國光通訊產業及光器件企業,對於光通訊企業、中國光通訊市場的結構、特點、商業模式、發展格局有著深入研究。

熟悉光通訊行業發展史,了解光纖通訊技術發展歷程,對光通訊業新技術趨勢有全面的了解和看法。本期分享主持人是鈦資本半導體組、人工智能組資深行業專家周曄博士,在通訊網管理軟件、光通訊芯片領域有超過二十年的研發和創業經驗。以下為分享實錄:

AI時代光互聯的需求變革

1、AI時代對高速光互聯的技術需求

這兩年AI是光通訊市場最大的利好。從去年到今年,資本市場中的CPO概念(光模組的新形態)已倍受關註。市場正在觀察今年1.6T光模組是否能真正出貨,這一技術的發展對AI算力和光通訊光模組的發展歷程至關重要。 光模組技術在過去叠代周期相對較慢:在傳統的電信市場,通常是十年叠代一個周期;到數據中心市場,大概是四年一個周期;而今天的AI算力已經加速到每年更新一代產品。

AI時代對光通訊技術的需求不斷增長,尤其是數據中心架構的變化對光產業帶來了挑戰。從支持400G光模組的25.6T交換機到支持800G的51.2T交換機的部署,顯示了光模組技術的進步。國內外的互聯網大廠,如字節、騰訊、阿裏、百度等,都在自研並批次部署51.2T交換機。51.2T交換機的普及推動了400G和800G光模組成為主流,這代表了高速光模組技術的發展方向。

傳統的通用數據中心的光模組需求在2023年上半年已經到了一個瓶頸期。但隨著AI興起,下半年直接拉起了400G和800G光模組的需求,直到今天。由於發展得快、需求又高,對行業造成了一定的痛點和挑戰。第一個就是高密度,高密度又帶動了能耗的增加,交換機能耗不斷地提升,從25.6T到51.2T。快的話明年應該能夠看到102T交換機的出現。交換機和光模組功耗的增加和密度過大,接下來會造成伺服器和交換機的距離變得比較遠。所以今年市場上看到400G單模的需求量變大了。就是因為整個數據中心的架構變了,需要光模組光互連的距離變長了。最後就是產業鏈更叠太快,產業能不能跟得上。

AI確實帶給光通訊產業巨大的潛力,我們從多個維度來看:

(1)高頻寬與低功耗的平衡:隨著數據中心對頻寬的需求不斷增加,光模組的速率正在迅速從400G到800G,過渡到1.6T,速率增加了4倍,而功耗也從10W增加到20W,很難保持速率增加而功耗不變。

(2)更高的連線密度:光模組的通道數從過去的4通道提升到主流的8通道,未來極有可能挑戰16通道。這就要求在整合和耦合方面的技術要求更高,以滿足更大的頻寬需求。

(3)光模組方案的多樣化:光模組都是帶DSP時鐘訊號恢復的,而為了降低功耗、成本和時延,業界推出了去掉DSP的線性驅動可插拔光模組(LPO)方案。而為了進一步迎合多種場景的高頻寬方案,光芯片的材料平台也在不斷豐富,從短距的VCSEL和長距的EML,到矽光方案和薄膜鈮酸鋰等新技術,未來將進一步推動頻寬的提升。

(4)AI對數據中心架構的影響:AI技術正在重塑數據中心的架構,今天的智算中心增加了Scale-up的後端加速網絡,所以有了Scale-up和Scale-out的智算中心網絡架構。輝達在Scale-up架構中對高速光模組的需求非常旺盛,而在Scale-out架構中,除了輝達的自有InfiniBand方案外,大部份廠商仍然采用乙太網路方式進行連線,這顯示出不同網絡架構對光通訊技術的不同需求。

這裏,我們再透過光纖線上年初釋出的一張圖表來具體了解AI套用前後光通訊技術的叠代變化。

2012年,行業基於10G光芯片實作了40G(10G*4)的傳輸速率。到了2016年,100G(25G*4)的產品開始進入市場。盡管業界原本預計在2019年推出400G光模組,但200G產品在市場上的持續時間超出了預期。到了2021年,400G光模組開始出現,但直到2023年才真正實作大規模商用。在2023年之前,光通訊技術的叠代周期大約是每四年一次。盡管如此,400G光模組在2022年的年出貨量仍然不足200萬只,顯示出市場需求相對有限。然而,到了2023年,隨著AI技術的興起,整個市場格局發生了變化。AI對計算能力的需求遠超傳統的通用計算中心,導致對光通訊產品的需求激增,物料供應開始出現緊張。這種需求的增長和叠代速度的加快,預示著行業可能將迎來每年一次的技術叠代周期。到了今年3月,行業已經開始重點展示1.6T的產品,而Arista公司更是展示了3.2T的可插拔光模組方案。這表明,AI技術的快速發展正在推動光通訊行業以更快的速度進行技術創新和產品升級。

預計1.6T光模組的批次出貨將於2024年第四季度開始,並在2025年第一季度正式上量。這一進展不僅標誌著光模組技術的一個新裏程碑,而且也預示著光通訊行業將面臨新的挑戰和機遇。隨著數據中心對頻寬的需求不斷增長,1.6T光模組將成為滿足這些需求的關鍵技術,同時也將推動整個光通訊行業的技術進步和市場擴張。

2、AI場景光互連技術分類

AI場景的光互連通常分為跨域光互連、通用乙太網路短距光互連、非乙太網路短距光互連這三類。 通常我們關心比較多的就是中間的短距離(兩公裏以內的)光互連。但是跨域光互連,對應電信都會網路絡的需求在增加,尤其是今年,對應的相幹光模組出貨量在翻倍地增加。非乙太網路短距光互連領域,在AI伺服器的內部,目前是用銅連線的需求較為密集,未來有可能會用光連線。包括儲存芯片和GPU芯片之間的互連,都會考慮用光連線的方式。目前,已有廠商開始布局這一未來領域。

對於光互聯技術,業界通常按照傳輸距離進行分類:目前關註比較多的是短距(兩公裏以內)、還有超長距(40-80公裏)也是很多廠商目前在重點布局的。反倒是傳統的數通10公裏相對用量比較小。DCI之間都是用40-80公裏光模組,AI數據中心集群之間的連線也屬於長距ZR這部份。

AI時代光模組的需求和方案變化

AI對於整個光通訊產業鏈的需求變化最重要的,一個是對頻寬的要求,一個是對功耗的要求。往下一步走尤其是走到T位元級光模組,功耗是最大的挑戰。整個行業,包括光模組和交換機制造商,以及最終互聯網營運商,都非常關註能耗問題,因為它直接影響到數據中心的負載。

這裏是一張關於800G的DR8或FR8模組的功耗分類(數據來自索爾思OFC上的演講截圖),顯示DSP功耗占比最大,可以達到40%~65%。所以才會有LPO這樣的方案出現,LPO直接去掉了DSP芯片。

不管是LPO還是今年新出現的LRO或者TRO,總體來說都是為了解決DSP帶來的更大功耗。CPO則是直接不用DSP,然後光模組也不再是可插拔了,全部部署在交換機ASIC芯片周圍去完成光電轉換。無論哪種方案,當前所有的芯片廠商、模組廠商都在努力,終端廠商也都在驗證。但如果在同等的技術條件(速率)下,可插拔光模組他們優先采用的方案,因為CPO也要考慮到最終的維護成本的問題。而且不管哪一種方案出來,除了速率頻寬功耗,還要考慮整體的供應鏈,整個生態鏈是否足夠完整,封裝工藝是否僅此一家被過度依賴,最後還有成本的問題。

新技術的博弈通常考慮的因素是比較多的。尤其是生態鏈和維護的成本是大家考慮比較多一些的。LPO從去年推到今年好像這個熱度降下來了,但事實上大家對LPO還是抱希望的。比如說在1.6T的時候,「LPO+矽光」的方案是不是更有機會一些,能夠把這個功耗降得更低。但至少在800G層面DR8這個光模組產品為例,LPO方案是可以將整個交換機功耗降到35%~50%的。不管是交換機廠商還是互聯網廠商現在相對來說都是比較感興趣的。國內外多家終端使用者也在花費大量的測試去完成LPO整機的測試方案。至於哪種方案將來會占主流,最後還是要看終端廠商。從我們的角度,它們不是完全替代的關系,一定是並存的。它們一定是有各自的範圍的場景去套用。但整體產業依然對於可插拔光模組產業繼續走下去抱有信心。

跨域相幹光模組這個方案,前面關註比較多的還是內部的連線,實際上跨越這塊也在慢慢走向T位元時代,我們現在看到三大營運商用的都還是400G。營運商的都會網路一般是120公裏以上的。DCI主要是40~80公裏。海外Ciena和Infinera已經在推800G相幹商用,1.2T和1.6T的相幹已有廠商推出,只是目前還沒有商用。總體上,無論是內部互連還是跨域互連,光模組都是邁向T位元級的。

國內外互聯網商對高速光模組的需求,800G是主力,400G還有3~4家消費主力。 今年海外的一個變化是多模的轉向單模。單模基本上要占到近七成。明年海外會延續800G需求,但逐漸會有些頭部的客戶會向1.6T去過渡。另外海外就是DCI互連也就是跨越相幹的需求會越來越多。整體的驅動力就是Scale-out這個對於後端網絡互連加速的需求。需求的主力,輝達、谷歌這是頭部,今年亞馬遜和微軟也都開始有了800G的需求,明年它們會不會有1.6T還要看一看。另外,Oracle、特斯拉今年也是這個市場需求的主力。國內這邊不太一樣,光芯片比較緊俏。拿不到更優的芯片。所以,大家會考慮用8通道50G的400G。所以今年400G也在起量。800G只有少量(兩家)。所以整體上國內需求今年是400G,明年還是400G。然後慢慢地向800G去過渡。國內數據中心和算力中心多由三大電訊供應商建設,都會網路需求預計年底或明年將增長,對應DCI需求。國內互聯網廠商開始自研支持800G的51.2T交換機,並開始部署。

今年,國內外互聯網廠商對高速光模組的需求增長顯著,特別是今年在AI智算帶動網絡加速的推動下。 華為憑借其自有AI伺服器,配套光模組在市場中占據重要地位,而字節跳動、阿裏、騰訊和百度等國內互聯網大廠的需求同樣旺盛。小型互聯網商的需求相對較小,只有幾萬只,但整體市場相比去年有顯著增長。

邁向T位元時代,不同材料平台的機會

今年,之所以1.6T很熱,一個重要的因素是支持單波200G的光電芯片相對來說已經比較成熟了。這裏羅列了能夠支持單波200G的光電芯片廠商。

Lumentum和博通在兩三年前就釋出了支持單波200G的EML樣品。今年已有Lumentum、三菱和博通宣布實作200G EML的量產,住友3月份也推出了200G EML。VCSEL做到200G已經很難了。但今年Coherent和博通推出了200G VCSEL芯片。配套的電芯片,Marvell已經展示了,3季度量產。博通9月份剛釋出200G DSP。Credo當前主推100G DSP,預計明年釋出200G DSP。

今年的OFC展會上,除了單波200G的VCSEL外,單波200G的矽光技術成為了焦點。 這些技術的發展預示著1.6T光模組時代的到來,其中矽光技術尤其引人註目,因為它在調制頻寬上取得了突破。 華工正源在3月份釋出了自研的矽光芯片,能夠實作單波200G,而國內廠商賽麗和蘇州的熹聯光芯(Sicoya)也宣布了200G矽光調制方案 。矽光也帶動了CW-DFB激光器的需求,因為CW-DFB的技術難度相比EML來說還是簡單很多。這些進展表明,單波200G技術將成為光模組產業的一個重要分水嶺。

多模VCSEL芯片一直是以國外廠商為主。今年博通、Coherent和Lumentum推出了單波200G的VCSEL芯片。在100G VCSEL市場,也是博通和II-VI占了主流,Lumentum在3D Sensor這塊占用了精力可能比較多,目前也開始在光通訊領域起量。另外就是通快收購了飛利浦,還有3D Sensor領域的索尼,開始在國內第二梯隊這塊特別活躍。目前的方案都是PAM4技術實作速率翻倍的,並非傳統的NRZ。其它廠商也比較期待,但批次和去用,估計客戶采用時間還比較長。

200G EML也一樣。Lumentum、三菱、博通已宣布量產。索爾思宣布推出但是自用。源傑和住友已宣布釋出200G EML。另外海思也主要是自研自用。值得關註的是100G EML,國內光芯片廠商可能會更有機會,源傑已釋出100G EML芯片在客戶端小批次,最近澤達半導體也已宣布推出了100G EML。EML競爭還是比較激烈,索爾思、海信、海思、光迅、AOI多家在自研。EML的潛力還是很大,本身技術和生態鏈已經成熟了。今年ECOC上,三菱已經釋出了基於106 GHz實作400G單波的EML芯片。此外,InP的光子整合國外有兩家在做,Infinera一直在做DWDM光子整合系統。

矽光今年很熱,矽光其實不是新東西。2016年光纖線上就舉辦了矽光論壇。16年英特爾的矽光已套用在100G CWDM4的2km光模組,並在17、18年占到100G CWDM4光模組30%的份額。當時,業界對矽光很有信心。但那時數據中心對速度的需求還是不夠快。400G通用計算中矽光沒有占到份額。這一輪AI,又有幾家公司去推矽光的方案。今年看至少突破20%問題不大的。一個是雲暉,另一個是華工。都是用自研的矽光芯片去做矽光模組。雲暉的矽光模組已進到谷歌了,占份額較大。矽光的速率能否達到單波400G是個問題,但矽光的整合潛力吸重力很大。Intel的矽光方案已完成激光器異質整合,其它的光源是外置的。 目前,光模組廠商都自研或者參股來自供矽光芯片,模場轉換、光纖陣列等配套產品,也相對成熟,提供商也比較多。

薄膜鈮酸鋰的優勢是頻寬足夠高,優勢很明顯。單波400G的3.2T光模組可能會是機會,但走向3.2T,EML目前看起來是足夠滿足,那6.4T是否就有薄膜鈮酸鋰的機會了?矽基異質整合也是一個方向。矽基可以整合各種各樣的材料。

小結

AI計算中心的快速發展正推動光模組技術進入T位元時代,這一趨勢在國內外都有所體現。目前,數據中心內部互聯(DCI)和跨域集群連線的需求日益增長,預計未來幾年將有更多的跨域連線出現,從而帶動DCI需求的增長。

在技術層面,1.6T光模組可能成為光模組市場的一個分水嶺,類似於過去100G光模組的市場地位,周期比較長。目前,EML技術在800G光模組中占據主導地位,但隨著技術的發展,其他材料平台如矽光和薄膜鈮酸鋰等也有可能成為未來的主流技術選擇。這些技術平台都在積極突破,以滿足更高的頻寬和更低功耗的需求。

邁向單波400G,矽光與VCSEL都面臨巨大挑戰。EML還是在確定性地走向400G。另外LPO和矽光的結合可能會成為更佳方案。因為它有潛力進一步降低功耗並滿足頻寬需求,但這也依賴於整個產業鏈的驗證和測試。

Q1:對於國產的EML,廠家還有機會嗎?

A:在芯片制造領域,國內外廠商的技術積累存在顯著差異,國際大廠擁幾十年的經驗,而國內廠商,最早的光芯片公司成立僅十年。盡管如此,國內廠商在接入網領域已經獲得了不錯的市場份額;而且持續投入大量的精力和財力在數通EML芯片,但技術上的差距不僅在於代際,還涉及到制程工藝的革新。

盡管國內外技術差距明顯,不過國內廠商在單波100G EML技術上已取得突破,顯示出巨大潛力。市場不應期望國內廠商能迅速匹敵單波200G技術,而應給予他們發展和成熟的時間。此外,頭部企業若將產能轉向單波200G,可能會為國內新興廠商在單波100G EML市場上提供機會。考慮到成本因素,400G和800G光模組的在國內仍有較長的路要走,國內廠商可能會采用低成本的八通道400G方案,未來可能轉向單波100G方案。

Q2: AI引領,能夠出現不同於前面幾次的避免內卷的帶來的賺錢效應嗎?

A:過去中國市場在3G到5G的發展中占據全球最大份額,政策引導下市場規模大,價格低廉,營運商成本被壓縮。然而,當前AI驅動的數據市場有所不同,主要客戶來自北美大廠,他們更註重供應商的持續性而非價格戰,希望避免影響技術發展。目前,國內市場客戶利潤較低,而北美客戶利潤豐厚。若國內數據中心需求激增,可能導致價格戰,但目前AI對光模組的需求顯示,國內外市場存在利潤差異。

Q3:中美脫鉤會不會導致三巨頭的占有率流出中國?

A:中美脫鉤的討論在行業內一直存在,隨著這一趨勢,許多廠商開始將目光轉向東南亞市場。一些公司都在泰國等地建立了大型工廠,生產更高速的光模組,並期望未來能夠透過東南亞的公司向北美客戶出貨。然而,海外生產可能會降低生產效率,因此中國制造和海外制造的結合顯得尤為重要,兩者都不能缺少。盡管制造業向東南亞轉移可能會導致國內產能的犧牲,但中國的產能不會完全放棄。未來,生產制造的模式可能會是中國保留一部份,同時海外至少也有一個生產基地。

光模組是光纖通訊系統的核心器件之一,是光通訊器材最重要的組成部份,主要作用是實作光電轉換。光模組具體包括光接收模組,光發送模組,光收發一體模組和光轉發模組等,主要由光發射元件(含激光器)、光接收元件(含光探測器)、驅動電路和光、電介面等組成。AIGC帶來的超大算力需求拉動通訊基礎設施建設及擴容,光模組作為數據傳輸的基礎部件,在本次AI建設周期中舉足輕重。在AI超算中心建設中,光連線朝著高速率、大密度方向發展,800G、1.6T光塊的更新叠代也將加速。從光模組產業本身來看,作為中國的優勢企業,具備直接打入北美AI產業鏈的能力。中國光模組企業占據全球60%以上的市場份額,這也將帶動國內高速光芯片的突破。鈦資本將和行業夥伴一起,共同見證光模組向T位元時代邁進。