當前位置: 華文世界 > 科技

重大研究突破!天翼雲資料庫論文提出創新性Taste框架

2024-10-16科技

近日,由天翼雲資料庫團隊、中國電信雲端運算研究院和深圳北理莫斯科大學合作完成的【Taste: Towards Practical Deep Learning-based Approaches for Semantic Type Detection in the Cloud】(構建雲上基於深度學習的大規模語意型別辨識系統)論文被28th International Conference on Extending Database Technology(EDBT)長文收錄。

EDBT是資料庫領域的知名國際會議,也是中國電腦學會CCF推薦的重點學術會議,已連續舉辦27屆,近五年平均錄取率僅為20.8%。此次天翼雲資料庫產品線所著論文被EDBT收錄,代表著天翼雲的科技創新能力再次獲得資料庫工業界和學術界的權威認可。

該論文專註於數據管理系統中的語意型別檢測(Semantic Type Detection)問題的研究,並在檢測效能和安全性方面實作了突破。語意型別可以顯示出復雜數據的語意含義,如人名、地址、身份證號等,不僅能夠幫助人類更好地理解數據,還能輔助數據管理系統提供搜尋、轉換和清洗等一系列關鍵服務,例如:數據管理系統辨識出「身份證號」這一語意型別後,可將該數據標記為敏感資訊,進而智慧地提供數據脫敏服務。

然而,現有語意型別檢測技術在每次檢測時都需要掃描數據列中的具體內容,存在著兩個顯著弊端:一方面,掃描數據列會極大增加額外的I/O和網路開銷,降低檢測效率,還可能對雲使用者的業務產生不利影響;另一方面,掃描數據列本身耗時較長,加之基於數據列進行特征提取和推理,進一步增加了模型的處理時間,導致整體檢測效率較低。伴隨AI技術的迅猛發展,采用深度學習來實作語意型別檢測的研究日益增加,雖在檢測成功率方面取得巨大進展,但仍難以滿足雲環境下的大規模語意型別辨識。

兩項創新檢測技術 實作高效精準檢測

作為雲服務國家隊,天翼雲堅持核心技術自主攻關,針對現有語意檢測技術的不足,該論文創新性提出 兩階段語意型別檢測框架 (Two-phase semantic type detection framework,簡稱為Taste)。

Taste框架的整體執行流程可分為兩個階段(如圖1所示):第一階段,僅利用資料來源的後設資料(如表名、列名、列註釋等)進行初步快速的語意型別檢測,以減少對資料來源的掃描操作;第二階段則是按需進行,在需要進一步確認第一階段中不確定的語意型別時,再將列內容與後設資料結合起來,完成更精確的檢測。

透過兩個階段的結合,Taste不僅有效提升了檢測效率,減少了對使用者資料來源的影響,還可在後設資料品質不佳的情況下保持系統較強的魯棒性。同時,Taste具有較強的靈活性,雲上租戶可根據自身的數據私密需求選擇完全禁用第二階段,從而進一步保護數據。此外,Taste透過將每個階段劃分為數據準備和語意推理兩個步驟,並利用流水線機制並列執行不同的步驟,充分利用I/O、CPU和GPU資源,顯著提升了整體執行效率,可更好地適用於雲環境下海量數據表和列的處理。

圖1 兩階段語意型別檢測框架概覽圖

此外,該論文進一步設計了一種新穎的 非對稱雙塔檢測模型 (Asymmetric Double-Tower Detection,簡稱 ADTD),透過引入多工學習來支持Taste的兩階段檢測過程。ADTD模型結構分為metadata塔和Content塔(如圖2所示),前者是對後設資料特征進行編碼,後者是結合後設資料資訊對列內容特征進行編碼。在Taste的兩階段檢測中,第一階段僅利用metadata塔進行推理,並將metadata塔加入到緩存中,供第二階段使用,以減少重復推理;第二階段則是結合metadata塔的緩存和Content塔進行推理。在訓練過程中,兩個階段的輸出可以結合在一起做多工學習,使得模型只需訓練一次,即可套用於兩個階段的推理過程。

圖2 非對稱雙塔檢測模型結構圖

該論文的實驗表明,Taste 框架在執行效率、準確性、降低數據列掃描侵入性等多個方面均表現優異,且在不同的數據私密設定下表現出較強的魯棒性,並具備雲端大規模部署的潛力。

目前,Taste框架已在天翼雲數據管理服務(DMS)進行落地。天翼雲DMS是TeleDB的一款資料庫工具產品,作為一站式數據生命周期管理平台,其支持多雲異構資料庫統一納管,提供數據資產管理、客戶端工具等功能。依托Taste框架的效能優勢,天翼雲DMS可幫助客戶進行高效、靈活的語意型別檢測,實作更加快捷且智慧化的敏感數據辨識,顯著提升雲端數據管理的安全性和穩定性,為企業充分釋放數據價值提供有力支撐。

科技創新是發展新質生產力的核心要素。面向未來,天翼雲將秉持央企使命責任,發揮數位中國建設主力軍作用,持續推進資料庫等雲端運算技術攻關,築牢國雲智算底座,以科技創新引領產業發展。