當前位置: 華文世界 > 科技

中國互聯網從這裏起步,30年後建成了一張「網」和一朵「雲」

2024-09-02科技
沒有互聯網的野外台站能不能即時傳輸數據?大科學裝置產生的大量數據,能不能高效率分發排程?透過指標分析工具也可以開展SDGs評估?這一張「網」和這一朵「雲」,對於科研工作者竟然有著如此重要的意義…
出品:格致論道講壇
以下內容為中國科學院電腦網路資訊中心研究員黎建輝 演講實錄:
大家好,我是來自中國科學院電腦網路資訊中心的黎建輝。今天我們在這裏隆重地慶祝中國全功能接入互聯網30周年。
大家知道4月20日這個日子怎麽來的嗎?要回答這個問題,我想提一個人,這個人是我的同事李俊老師。
▲李俊研究員
3個星期前,我在一次會議上見到他,就跟他說:「李老師,我對您的敬仰如滔滔江水綿綿不絕。」他就嘿嘿地笑,說:「怎麽著?你調侃我?」其實真的不是,那是發自內心的感想。
那個時候我正準備寫一篇文章,對中國科技網整個30年的歷史做一個回顧,因此就查了一些資料,也就知道了4月20日原來是這麽回事。
1994年4月19日的晚上,李俊老師在網路室值班。大概晚上10點11點的時候,他突然發現自己能連上國際的網路了,而且可以在網路上看很多東西,他非常興奮。但很遺憾的是,他把這個訊息留到了第二天早上,1994年4月20日,才告訴我們的領導。然後我們就得知,中國互聯網全功能接入國際互聯網的日期就是1994年4月20日。
我就跟他開玩笑,說你要是早一點說,是不是我們還可以早一天接入國際互聯網?
▲在北京友誼賓館舉行中國Internet開通五周年慶典
至於我自己,那就得從這張照片開始講起。我在1999年的4月1日跨出大學的校門,進入了中國科學院電腦網路資訊中心。這張照片拍攝於25年前的4月20日。在那一天,我們在紀念中國互聯網開通5周年。
我不知道大家能不能在這張照片裏面找到我,我估計有點難度。圈起來的這位小夥看起來還不錯是吧?長得也很清秀,滿頭黑發。現在歲月這把「剃頭刀」幫我把頭發剃掉了不少。
那個時候我剛剛走出校園,就參加這樣一次國際的、高層的、網路的學術研討會。我聽了一些報告,但說實話我真沒聽懂。我聽他們說的詞,backbone不知道是什麽,現在知道是骨幹網,路由router是什麽東西?我從來沒聽說過。但是我也很榮幸,至少我有機會參與進來了。
從那之後的25年來,我從一個互聯網的使用者,到成為它的套用開發者,到今天負責整個科技網的建設者,一路走來,跟互聯網結下了一生不解的情緣 。
從一張「網」到一朵「雲」
作為中國科學院電腦網路資訊中心的一分子,我們每天從門口進進出出的時候都會看到這個牌子,內心還是非常驕傲自豪的。
這個牌子就在說,中國的互聯網從這裏起步 。當時叫「中關村地區教育與科研示範網路」,這個牌子上記錄了它整個網路的情況。它有3個主要的結點,其中下面那個大的環是把中國科學院在中關村的這些研究所連在一起,上邊還有兩個環,一個是北大的,一個是清華的。這3個院校網連在一起形成了一個地區性的骨幹網。
當時建設這個網路的目的是共享一些資源,更重要的是要共享當時比較昂貴的、先進的、從國際進口的那些超級電腦,用它們做科學計算和模擬。
這個工程是由國家計委支持、由世界銀行貸款的,它本身沒有義務去連線國際互聯網。但是這個工程的領導者,也就是我們中國科學院的領導和我的老同事們,他們以一種前所未有的遠見和魄力堅持建成了一條64K的專線,把它連到了美國,實作了中國全功能與國際互聯網的互聯 ,讓中國成為了國際上第77個接入互聯網的國家,這是一種何等的榮耀。
互聯以後,在京區的各個科學院研究所很快就可以使用這個網路跟國際上發信件交流了,享受到了這個便利。但是我們中國科學院一共有100多個研究所,分布在全國十幾個不同的城市,他 們也要上網,怎麽辦呢?
中國科學院就決定,要把這個網路推到全國。於是當時啟動了一個工程,叫「中國科學院百所聯網」,就是把科學院100多個研究所都連到這個網上來,讓大家都能使用互聯網。
同時我們發現,其他的科研機構,比方說農科院、林科院等等,他們位於各個地方的科研機構也想上網進行國際交流。於是我們就把這個網路再往外延伸,建立了一張「網」——中國科技網。中國科技網從1996年一直執行到今天,是專門為科研工作者服務的一張網路。
近些年雲端運算風起雲湧,光有網路還不夠,科研工作還需要大量的數據儲存和分析計算。所以我們在2018年的時候又建立了一朵「雲」——中國科技雲。從科技網到科技雲,這是一個自然的演進 ,在這朵「雲」上,大家可以使用中國科技雲提供的科研數據計算、儲存、管理共享等服務。
野外數據怎麽快速傳到研究中心?
大家一定會問,我們有了那麽多的網路,那麽多雲平台,為什麽你還建一個新的「網」、建一個新的「雲」?有什麽意義呢?
關於這個問題,我想分享3個方面的故事。
第一個故事關於野外台站聯網。什麽是野外台站?科研人員要掌握某個區域的氣候、生態、環境等情況的時候,需要在那個地方圈一塊地出來,放一些裝置設施,用來監測數據,甚至還可能有試驗田。這些台站大部份都遠離城市,基本上都是在無人的荒郊。
我曾經跑遍了科學院上百個這樣的台站,發現它們是沒有互聯網的。科研人員們碰到的最主要的問題是,當地獲取的數據能不能快速地、即時地傳到數據中心,和全國的科研人員迅速共享和分析。
▲閻保平研究員
要講這個故事,我想回到大概十五六年前的一個下午。我跟著我的導師閻保平研究員開會時,她突然跟我說了一句:「小黎,走,跟我去青海湖。」周星馳的【大話西遊】裏面有個場景,唐僧對著他的徒弟說:「走,天竺」。聽到導師這句話的我,真有那感覺。於是我拿上一些簡單的換洗衣服,就跟著她去了青海湖。
那是我第一次去青海湖,青海湖面積四千多平方公裏,有很好的環境資源和生態,是鳥類的天堂。每年春天的時候,鳥從南亞一直飛到青海湖生蛋,孵小鳥,每年秋天再飛走。很多人會去那裏觀鳥。
我們去那幹什麽呢?閻老師讓我們去為青海湖建一張網,利用資訊化設施來監測整個的生態環境。
閻老師花了很多年,帶著我們建了這樣一張網。這裏面有一些地名,蛋島(又名鳥島)、海心山、三塊石等等,每一個都是青海湖裏一個很小的小島,上面都是鳥。我們要在這些島上建監控裝置,用無線裝置把島上數據傳過來,最後透過科技網連到數據中心整理共享。之後還要分發給中國科學院很多不同的研究所做研究。
這樣的一個工作我們做了很多年。我們開玩笑說,作為閻老師的學生,我們師兄弟共同的記憶就是青海湖。因為幾乎我們每個人都被她指派到青海湖參與過各種各樣的工作,現在想起來其實是一種別樣的收獲。
大家可以看這些照片,架起這些裝置現在看起來好像很簡單,但在當時真的很不容易。
比如太陽能板。這個島離岸大概有20公裏左右,只有一艘很小很小的小船會去那裏。太陽能板做多大的呢?大了運不上去,小了不夠用。我們想了很多的辦法,透過測試最終才得知這個太陽能板多大合適。
接下來,用什麽辦法才能克服這20公裏的距離,把數據直接傳過來呢?有線肯定不合適,成本太高。於是當我們時用了無線網橋的方式。無線網橋相距很遠的時候,要對得準效率才能好。
所有的裝置在野外日曬雨淋的,你得保證它能正常工作,所以我們得做個黑箱子把它封起來。把這個箱子封起來當然很好,那散熱怎麽辦?太陽曬起來很熱,高原放射線很大,所以又要把它開啟。那開啟後又怎麽去防水、防其他的東西呢?我們想了很多的辦法來解決這些問題。
大家可能會覺得,我們都是一些碩士博士了,怎麽還去做這些事情?但閻老師說,就得從做這些事情開始做學問。
有了這些觀測裝置,我們就能看得到這些非常罕見的動物行為。你看,這只鳥在咬我們的網路攝影機。有的在孵蛋,有的在打架,它們像人一樣進行各種各樣的行為。而我們在任何一個地方都看得到它們。現在很多生態觀測都采取了這樣的方式。
我們中國科學院有好幾百個這樣的野外台站。它們分布在各種各樣的地方做生態觀測、特殊環境觀測、植物觀測等等,都需要透過這個科技網路做數據傳輸、裝置監控的工作。
2008年在國家的支持下,我們參與了中國下一代互聯網的建設。我們專門建了53條專線來把32個台站全部聯網,但實際上這還是不夠的,後續我們還會下大力氣去把整個野外台站的聯網做好,讓我們能夠獲得高品質的一手觀測數據,為科研服務。
想第一個出成果,也離不開網
第二個故事就是服務於大科學裝置。
什麽叫大科學裝置? 我們做科學研究的時候需要一些大的裝置做共享觀測,比如貴州的那口「大鍋」(FAST),500公尺口徑球面射電望遠鏡「中國天眼」就是一個典型的代表。還有科考船,我參觀過三亞深海所「蛟龍號」的工作,很多人在科考船上做實驗。還有做粒子物理研究的對撞機等等。這些都屬於大科學裝置,會時刻產生大量的科學數據。
怎麽來計算分析這些數據呢?這是一個問題。我的故事就從我和「中國天眼」首席科學家李菂研究員在一次會議上的交流說起。
當時他告訴我,他在做多目標巡天,巡天一小時就會產生136TB的數據。這些數據怎麽運回到數據中心處理、怎麽分發給其他的合作夥伴來協同處理,他覺得是個很大的難題。巧合的是,我也在找一些好的科學套用來讓我們的「網」和「雲」為它們做服務,以此來驗證我們的技術方法是否正確。於是我就跟他說,我來幫你,來試試看有沒有辦法解決這個問題。
我就組織了一個團隊,利用科技網的資源建了一條從貴州到北京懷柔的百吉(100Gbps)網路。百吉是什麽概念呢?我們家裏用的網路的傳輸速率基本上是千兆級別,這中間差了至少2個數量級。這樣的一條網路能每天支持傳輸PB級數據,能夠實作多中心分發。
高速公路修好了8車道,8個車道就都可以使用了。但網路不是這樣的,在長距離、大頻寬傳輸的時候,很難把網路的頻寬利用好。因此在測試的時候,我們能用到50%-60%,大概是50-60Gbps就很不錯了,再快就跑不起來了。
當時我們用了很多技術手段,壓縮數據、最佳化協定等等,終於讓這條網路能夠跑到90多Gbps的頻寬。數據到了北京以後我們再做分析處理,分發給其他的合作夥伴。
即使這樣,光有一條頻寬也不能解決大裝置裏面的數據傳輸效率的問題 ,因為它的整個處理是一個非常復雜的過程,大概有3個階段。
▲提出雲化「算力工廠」的新科研模式
首先,它獲得原始數據後,要對不同時段的關鍵數據開展融合、分析、去噪、規劃等預處理。這個時候需要一些雲端運算的能力,用一些伺服器來算。算完以後,要放到一個超算環境裏面用科學軟體做科學發現,也就是在一個大的高效能計算分析車間再算。算完以後有結果,再對結果做一些分析,甚至還會用到一些AI。這3個階段就像一條流水線。
我們如何讓這麽大規模的數據和算力網路協同起來,像流水線一樣工作呢?我們團隊提出了一個叫算力工廠的方式。我們開發了一套中介軟體的軟體scalebox,它能夠使底層數據、資源排程、數據傳輸像流水一樣快速地轉起來,使得數據處理的速度能提高一個數量級。
2022年我們支持了「中國天眼」首次發現重復快速射電暴,這是全人類的首次發現,入選了中國十大科技進展。
研究結果發表在【自然】(Nature)上,文章裏還致謝了「中國科技雲」。2024年,他們又發現了新的快速射電暴,這個成果也發表了,我們團隊的成員被列為共同作者。
▲中國科學院重大科技基礎設施分布圖2023年
這樣的大裝置還有很多很多,包括在建的和在執行的中國目前有77個。中國科學院大概有25個在執行,有13個在建。它們都需要這樣的科研網路和「科技雲」來支持它們做數據傳輸和分析計算,快速地產出科研成果。
科學的成果比得就是一個快。你今天出來發表了,可能就是全世界第一;明天再出來如果是第二個,就沒有意義了。可見網路的能力對科研的作用有多大。
用網路支撐永續發展
第三個故事是我親身參與的一件事,就是服務聯合國的永續發展目標(Sustainable Development Goals,SDGs)。2015年,聯合國的193個成員國在紐約的永續發展大會上一致透過了多個永續發展目標。
未來到2030年,我們要實作全人類的永續發展的17個發展目標,比如消除貧困、零饑餓等等,具體包括教育、環境、生物等多個方面。每一個目標下面又有一些具體的目標和指標,共有169個具體目標,230多項指標。這些指標是需要量化地進行評估和監測的,這樣才能知道它能不能實作、什麽時候實作。
但是做這件事需要的是數據和方法,還有我們的平台。在2017年,當時提出來的指標中有60%基本上是沒有數據的,其中38%的指標沒有評估方法,全人類都不知道要用什麽方法和數據來評估這些指標。
▲郭華東院士
我們科學院在2018年啟動了地球大數據科學工程的先導專項。專項的首席郭華東院士在2019年提出,我們能不能用地球大數據的方法用我們的能力來為SDGs指標的評估提供一個新的解決方案呢?
▲構建地球大數據科學平台
為此我們做了四五年這樣的工作,我也有幸參與了全程。我們利用網路和基礎設施構建了一個新的平台。
這樣一個科學的地球大數據平台能透過科技網把全科學院的20多家研究所高速地連起來,讓數據快速匯聚到我們在懷柔的一個大的融合性基礎設施上。在這個基礎設施上面,我們研發了數據管理系統、計算分析系統,還包括視覺化的套用系統。
更重要的是,我們做了各種能對這個指標直接進行計算的工具,這就改變了我們做評估、做研究的方式。如果沿用傳統的方式,我們這個平台上有19.5PB的數據要下載,按現在的網路速度30天都下載不完,也沒地方存。現在只需要透過筆記本連上這個平台,在這個平台上寫程式碼,呼叫我們的演算法分析數據,甚至直接用我們做好的指標分析工具來分析評估就可以了。
比如其中,我們做了一個針對撒哈拉沙漠以南「綠色長城」的工具,正在非洲進行推廣套用。
這個平台的效能非常好。舉個例子,要對1800-2100年這300年間全中國區生態系的固碳情況進行評估,把中國960萬平方公裏的土地劃成10公裏乘10公裏的網格,然後按天做計算模擬。
研究人員說,如果是他們自己弄,按他們的平台環境一個月也算不出來。在我們這裏最佳化以後,在平台上一天就可以做一次這樣的計算。可以想一想,不同平台的速度是多麽不一樣,對科學研究的作用是多麽不一樣。
▲全球土地退化與恢復(2000-2018)
我們也支持郭華東院士的團隊開展SDGs評估,獲得了非常好的成果。上面是郭院士團隊對全球土地退化和恢復做的評估,得出的結論被時任國務委員的王毅在聯合國大會上直接參照:「我們統籌山水林田湖草沙系統治理,為全球貢獻了1/5的土地凈恢復面積。」
從2019年到2023年,我們一直在支持郭院士的團隊編撰【地球大數據支撐永續發展報告】,這個報告連續5年都由中方釋出。外交部評價說,這項工作為國際社會填補了數據和方法論的空白。
在這個過程中,我也迎來了我人生的高光時刻。
2023年的春節,我在家接到電話,郭華東老師說要開視訊會議。我就進入視訊會議,得知有聯合國的官員要存取永續發展大數據國際研究中心,我是這個中心的副主任。
開完會以後,接下來的三天我就一直待在屋子裏面準備,籌劃如何把我們的系統演示出來。到了2023年2月2日,第77屆聯大主席克勒希存取永續發展大數據國際研究中心。我給他做了系統的演示,展示了我們的數據和平台是怎麽基於網路支持SDGs指標評估,為永續發展做貢獻、為開發中國家做貢獻的。
當時講完了以後,我問他,你有什麽問題嗎?他看了看郭華東老師說,真的可以提問嗎?於是他就真的跟我探討了3個問題。克勒希在結束了對中心的參訪後說:「這是我見過的最先進的資訊科技,看到了令人震撼的成果,找到了誌同道合的朋友,當年的夢想變成了現實。 」那是我工作這25年來印象最深刻的一天。
更高速、更高效的未來
我們的網路天然就是一個全球互聯的網路。
現在,我們的中國科技網跟歐洲的、美國的乃至全世界所有的科技網路進行高速互聯,來支持無論是在新的能源、粒子物理還是在天文等方面的國際合作。
未來的3-5年,我們將會在現有的基礎上重新構建一張新的科研網路,按照國家的科技創新大布局繼續發展。我們有4個樞紐,北京、上海、廣州和成都,還有8個區域中心。
這個網路基本是傳輸速率百吉以上的高速網路,還跟國際網路高速互聯,可以用來支持實作我們所說的所有科研要素。大裝置、野外台站、數據中心、算力中心和我們的實驗室科研人員全部互聯,構建一個數位化的環境,來為數位化網路時代的科技創新做出實實在在的貢獻。
那誰來做這件事情?是照片中的我們,或者說是他們。這是昨天下午我們團隊為了今天的演講專門拍的合照。可以看出來,像我這樣的70後不多了,更多的是80後、90後甚至是00後。
未來在他們身上,責任也在他們肩上。我希望他們能不辜負歷史給予的責任。
謝謝大家!
「格致論道」,原稱「SELF格致論道」,致力於非凡思想的跨界傳播,旨在以「格物致知」的精神探討科技、教育、生活、未來的發展,由中國科學院電腦網路資訊中心和中國科學院網路安全與資訊化辦公室主辦,中國科普博覽(中國科學院科普雲平台)提供技術支持。