人工智能所掀起的產業變革仍在繼續。2024年政府工作報告提出,要「制定支持數碼經濟高質素發展政策」,「開展‘人工智能+’行動」。數據、算力和演算法是發展人工智能的三要素,如何實作三者的高質素發展,將「AI+」加速形成新質生產力?
近期,南都·灣財社推出【新質·中國造】欄目,深入千行百業,遍訪灣區企業,解鎖灣區新質生產力,共探高質素發展之道。本期對話深圳計算科學研究院YashanDB技術長陳誌標,探討國產數據庫如何實作創新突圍,搶抓數碼經濟時代的新機遇。
深圳計算科學研究院YashanDB技術長陳誌標
去年11月,深圳計算科學研究院(簡稱「深算院」)釋出了自主設計研發的國產新型數據庫系統YashanDB,實作了多項原創技術的突破和商用落地。深算院是深圳「十大基礎研究機構」之一,以實作核心技術自主為己任,專註基礎理論和關鍵技術研究,致力於打造中國原創的基礎軟件品牌。
陳誌標表示,隨著大數據、雲端運算等數碼化技術的飛速發展和廣泛套用,越來越多的企業開始依賴數據支撐業務運轉,數據套用場景也隨之增多。而讓大企業用得好大數據,讓中小企業用得起大數據,才能真正助力企業充分釋放數據價值、啟用產業發展新動能。
以下是專訪內容:
一
如何應對AI時代所面臨的算力挑戰?
南都·灣財社:數據、算力和演算法是發展人工智能的三要素,深算院做了怎樣的前瞻性布局?
陳誌標:今年,政府工作報告中首次提及開展「人工智能+」行動,人工智能產業發展提升至國家戰略的層面。數據是人工智能發展的基礎性戰略資源,深算院重點圍繞「數據」領域,針對當前面臨的一些重大挑戰進行技術攻關,致力為人工智能的長遠發展打牢基礎、夯實根基。
首先是海量數據帶來的計算挑戰。面向人工智能和數碼化浪潮帶來的海量數據,為了突破數據庫系統的能力邊界,深算院基於原創的有界計算理論,真正做到使用小資源實作大數據實時分析,即「大數據變小」,節省大量傳統計算算力。深算院YashanDB在工程套用中融入這一理論研究成果,經實測,面向從10GB增長到1TB的不同規模數據量,YashanDB實作響應時延維持亞秒級,效能提升千倍以上且未衰減,極大地節約了計算資源,為AI時代所面臨的算力挑戰帶來新解法。
再者是數據質素方面的挑戰。高質素數據是釋放人工智能的價值的前提,如何用自動化的技術手段提高數據的準確性、公正性和健壯性是當前學術界和工業界的研究熱點。數據作為AI模型的「燃料」,訓練語料質素、多樣性和完備性變得愈發重要。基於此,我們一方面透過數據采集與分類、數據清洗、數據合成與擴充,以形成領域模型和高質素語料庫;另一方面,當大模型套用在某個特定的領域和任務進行微調時,基於已積累的領域模型和高質素語料庫,我們提出一種基於模型驅動的叠代框架,進一步提升下遊模型的「糾錯」能力,從而實作效能提升。
最後是數據多樣性挑戰。面對來源多樣、格式復雜的數據,如何消除不同模態數據之間語意上的鴻溝快速進行整合和計算是另一個難點。當前主流方案考慮將數據按原始形態保存,在必要時透過轉換統一為關系數據再做分析,這類方法需要轉換大量無關數據,難以支撐數據的快速變化。針對多模「間接計算」模式的即時性難題,我們做了一些新的嘗試——基於語意實體連線,實作關系表中元組與圖數據中節點的對應,這樣可以針對特定實體進行跨模計算,以「直接計算」代替「間接計算」,提升分析效率。
二
破解中小企業大數據套用門檻高的難題
南都·灣財社:數據已經被列為重要的生產要素,在您看來,如何啟用大數據在產業發展中的新動能,釋放新質生產力?
陳誌標:隨著大數據、雲端運算等數碼化技術的飛速發展和廣泛套用,越來越多的企業開始依賴數據支撐業務運轉,數據套用場景也隨之增多,讓大企業用得好大數據,讓中小企業用得起大數據,才能真正助力企業充分釋放數據價值、啟用產業發展新動能。
雖然大企業已經建立了較完善的數據管理體系,但在整個數據利用方面還存在一些障礙,例如原始數據質素不高、數據共享不足、價值未被充分挖掘等等;那對中小企業而言,受限於預算和技術團隊等現狀,最顯著的問題是數據的使用門檻很高,無法享受大數據賦予的紅利,例如在大數據環境下處理PB級甚至是EB級數據對算力的要求十分高,這讓大多數中小企業對大數據計算依然可望而不可即,也會導致數碼鴻溝的進一步擴大。
要進一步釋放產業發展中的數據價值,一方面,基礎設施安全是企業用好數據的底線,數據庫等基礎軟件系統作為關鍵基礎設施,必須實作安全可信和持續演進,才能支持各行業在產業升級和轉型過程中的需求;另一方面,從數據的存、算、管、用全鏈條助力企業更簡單地管理數據,透過提供一站式數據管理解決方案,讓使用者簡化學習及運維成本,能夠聚焦在業務創新,充分將數據要素轉化為生產力。
更為重要的是,中小企業對中國GDP的貢獻高達60%,如何破解中小企業大數據套用門檻高的難題更是啟用產業的關鍵。針對海量數據計算成本過高的問題,我們致力於重新構建一套資源受限下的大數據查詢處理框架,把大數據變小,讓資源受限的中小企業也能享受大數據帶來的便利。
三
以數據為中心的新型數據管理技術或將成為重要方向
南都·灣財社:我們看到數碼經濟的浪潮風起雲湧,人工智能的發展也進入大模型時代。站在您的角度,也可以結合深算院的發展情況,談談感受到一些時代發展的機遇或者說風口?
陳誌標:如果說數據是數碼經濟時代的「石油」,那麽數據管理就好比「發動機」,共同構成了面向千行百業的核心能力。在海量數據供給、活躍創新生態和巨大市場需求的多重推動下,尤其隨著AI大模型的快速發展,必將催生新的市場和更多套用場景,企業創新創業勢能將持續增強。
與此同時,隨著新套用場景的湧現,對數據質素、數據多樣性、數據處理的新鮮度和融合性等提出了更高的要求,這也將給數據管理帶來更多挑戰。基於傳統計算模式開發的產品難以應對龐大的計算體量、解決計算復雜性等問題,因此以數據為中心的新型數據管理技術或將成為重要方向。
深算院作為新型科研機構,致力於打破一直以來存在的理論研究與工程轉化之間的鴻溝。秉承「理論和系統並重」的初衷,我們堅持從0到1的基礎軟件開發,具備從產品定義、程式碼實作到質素保障端到端的工程實作能力,目前已開發從理論到工程全自研的崖山、采石磯、釣魚城三款戰略性基礎軟件系統並實作落地套用。
以數據庫領域為例,作為現代資訊科技領域的三大核心基礎之一,數據庫是數碼經濟的重要底座。深算院全自研的崖山數據庫系統YashanDB,就是將原創理論突破與成熟工程化能力有機結合的產品。
未來,我們將繼續深化與學術界和產業界的協作關系,不斷擴寬「朋友圈」,攜手更多行業夥伴探索新場景的底層技術國產化套用,打造關鍵行業國產化的標桿示範,助力加快實作IT系統全面自主創新,共同構建一個穩健、繁榮的大數據與數據庫產業生態。
采寫:南都·灣財社記者 程洋