當前位置: 華文世界 > 科技

面向人工智能的數據治理

2024-08-24科技

一、 人工智能數據治理概念界定

(一) 數據治理的發展

數據治理的概念起源於企業管理領域,關於數據治理的定義研究 眾多,但由於業界權威研究機構、研究學者以及國內外標準組織研究視角不同,尚未形成較為統一的認知。

國際數據治理研究所 ( DGI )提出數據治理的定義為「一個根據 既定模型針對資訊相關過程的決策權和職責分配體系」。

梅宏院士 在【數據治理之論】一書中提出數據治理的核心內容包 括以釋放數據價值為目標、以數據資產地位確立為基礎、以數據管理體制為核心、以數據共享開放利用為重點、以數據安全與私密保護為底線。

國際數據管理協會 ( DAMA )提出的數據治理概念為「在管理數 據資產過程中行使權力和管控活動,包括計劃、監控和實施。

結合通用場景下數據治理定義的特征來看,數據治理的核心治理 內容主要圍繞數據質素、數據安全、數據合規等內容展開,強調要圍繞治理內容進行統籌協調、權責分配、資源排程等。

2. 數據治理的三個階段

第一階段, 20 世紀 80 年代,隨著數據庫技術的發展,企業開始 意識到數據的重要性。但當時數據管理主要依靠數據庫管理系統 ( DBMS ),直到 1988 年由麻省理工學院的兩位教授啟動了全面數據質素管理計劃( TDQM ),可以認為是數據治理最初的雛形。

第二階段,伴隨著資料倉儲的建設,主數據管理與商務智能平台 的實施,國內也逐步開始接受並利用數據治理的概念進行推廣實踐。

第三階段, 21 世紀 20 年代,以大模型為代表的生成式模型成為 推動人工智能發展的重要驅動力。大模型的興起對數據治理提出了新的挑戰和需求。

3. 大模型時代數據治理的難題

1 ) 數據「高量低質」

數據是人工智能技術的基石,是大模型訓練和推斷的原材料已成 為共識。然而,數據的數量和質素並不總是成正比。

2 ) 安全與私密泄露頻發

隨著大模型對數據的依賴性日益增強,數據安全和私密保護已成 為核心問題。

3 ) 偏見與歧視隨處可見

在科技飛速發展的背景下,人工智能倫理和道德的關註程度及應 對措施尚未完全跟上技術的步伐。自然語言處理技術的濫用案例日益增多。其中包括壓制不同意見、侵犯私密與匿名性等。

(二) 面向人工智能的數據治理的定義

面向 人工智能的數據治理 ( DG4AI , Data Governance for Artificial Intelligence )是指在人工智能套用中管理和控 制數據的過程與實踐,用以確保數據的質素、可靠性、安全性與合規 性,數據能夠被準確地用於訓練和部署 AI 模型,同時保護數據的隱 私和安全。

(三) 面向人工智能開展數據治理的主要階段與物件

1. 頂層設計階段: 治理目標 :確立數據治理的總體框架和戰略目標,確保數 據治理與組織的整體戰略相匹配。 工作重點 :根據組織的業務現狀、資訊化現狀、數據現狀和 AI 現狀,設定組織中各機構和部門的職責、權力的利 益,定義符合組織戰略目標的整體數據治理目標和可行的行動路徑。

2. 數據治理組織保障體系搭建階段: 治理目標 :確保面向 AI 的數據治理得到必要的支持和資 源,包括人力、算力、演算法、數據、技術和管理等支持。 工作重點 :分析領導層、管理層、執行層等利益相關方的需求,建立健全面向 AI 數據治理的相關管理制度和標準, 並基於數據治理所需的專項能力和業務價值目標構建支 持面向 AI 的數據治理體系。

3. 數據治理 工程建設 階段: 治理目標 :基於數據戰略目標,結合 AI 數據治理的特點, 制定並執行數據治理實施計劃,確保數據治理能夠按照既定目標和流程進行。 工作重點 :包括 數據收集、數據預處理 / 清洗、特征工程、 數據標註、數據劃分、數據增強、模型訓練、模型驗證與測試、模型推理 等實施步驟

4. 數據治理營運最佳化與 AI 套用融合 階段: 治理目標 :提升 AI 套用的規模化落地效果,實作數據治理與 AI 套用的良性互動。進一步,形成數據治理與 AI 應 用相互促進的閉環,實作數據價值的最大化。 工作重點 :透過數據治理提升 AI 模型的擬合效果,同時利用 AI 技術最佳化數據治理流程,形成良性閉環系統。

對於人工智能訓練和推理的階段與數據治理對應關系如下:

1) 數據收集階段 :此階段治理物件包括:結構化數據、非結構化數 據、半結構化數據、空間地理數據、時間序列數據等多種模態數據集。數據來源的選擇和收集策略直接影響後續的數據質素。數據的有效性和代表性在此階段就已開始形成。此階段我們需要保障相關來源的數據量和多樣性。

2) 數據預處理 / 清洗階段 :此階段數據治理物件是數據收集階段所采 集的多模態數據。此階段對收集到的數據進行初步處理,去除無關資訊,修正錯誤數據,處理缺失值、異常值、重復值等問題,確保數據質素。數據必須具備高度的質素和準確性,保證訓練模型時使用的樣本數據能夠反映真實世界的情況。

3) 特征工程階段: 此階段治理物件包括:原始數據集,中間數據和 特征變量、標簽數據集等。此階段將原始數據轉化為適合機器學習演算法使用的特征表示,包括特征提取、特征選擇、特征構造等。對於非結構化數據,可能需要進行特征提取,如文本分詞、影像特征提取等。特征的選擇、構造與轉換過程決定了模型能否有效捕捉到數據中的有用資訊,特征的質素直接影響模型的表現力和泛化能力。

4) 數據標註階段 :此階段治理物件主要是標註數據集。對於監督學 習任務,需要人工或半自動方式對數據進行標註。高質素的標註數據對於模型的學習至關重要。準確、一致且全面的標註能顯著提升模型訓練效果。

5) 數據劃分階段 :此階段治理物件主要是訓練集、驗證集和測試集 三類。本階段將數據集劃分為訓練集、驗證集和測試集,訓練集用於訓練模型。數據劃分階段的質素治理重點在於保障數據分布和數據平衡,合理地將數據劃分為訓練集、驗證集和測試集,確保每個集合都能代表總體數據分布,有助於避免過擬合或欠擬合。

6) 數據增強階段 :此階段治理物件主要是合成數據。為了提高模型 的泛化能力和應對不平衡數據問題,合成數據是透過模擬或生成技術生成的人工數據,用於模型訓練、私密保護等目的。雖然對合成數據的質素治理不是直接改善原始數據質素,但能間接提高模型對各種情況的適應力和泛化能力。合成數據質素治理包括對合成數據的生成過程、使用限制等方面進行規範和管理

7) 模型訓練階段 :此階段治理物件主要是訓練數據。使用高質素的 數據訓練模型,會得到更準確、穩定的結果。訓練過程中,如果數據質素不佳,模型容易學得有偏差或者過擬合。訓練數據的數據質素治理重點保障數據的完整性、準確性、一致性、多樣性和代表性。

8) 模型驗證與測試階段 :此階段治理物件主要是驗證數據和測試數 據,包括對抗性樣本、稀有事件或者小樣本數據等。模型的效能驗證和測試依賴於獨立的高質素測試集,只有當測試數據具有良好的代表性時,才能準確評估模型在新樣本上的真實效能。在模型驗證與測試階段,對數據的要求和活動更加聚焦於檢驗模型在未知數據上的表現和魯棒性,確保模型不僅在訓練集上表現出色,而且在新的、未見過的數據上也能維持良好的效能。

9) 模型推理階段 :此階段治理物件主要是推理數據集。在模型推理 階段,除了確保模型自身的效能以外,還要關註用於推理的即時數據的質素,透過一系列的數據處理活動來保證模型在實際套用中的效果和穩定性。推理數據集質素治理的關註點主要包括推理數據集的數據格式相容性、數據質素監控、數據有效性驗證、即時數據更新與維護、線上特征提取與轉。

(四) 面向人工智能的數據治理價值

透過在面向人工智能場景下對數據集與數據工程流程進行系統化、 標準化的治理,一是能夠提高人工智能模型的準確性和可靠性。二是能夠縮短人工智能模型的開發周期,降低開發與維護成本。三是能夠 提升整個 AI 系統的安全水平。此外,這項工作還能夠完善對未來全 域數據治理理論版圖的構建。

(五) 面向人工智能的數據治理原則

 標準化原則 :人工智能數據治理應具有靈活性、可操作性和實用 性,能夠被實際套用到數據治理中,透過制定和使用統一的標準、規範和流程並不斷叠代完善。這有助於降低數據管理成本,提高數據質素和效率。

透明性原則 :人工智能數據治理應該是透明的,運作方式和數據 處理過程應該是可解釋和可理解的,有助於建立信任和可靠性,並確保合規性。

合規性原則 :人工智能數據治理應該符合相關法律法規和行業標 準的要求,如私密法、知識產權法等。

安全性原則 :人工智能數據治理應註重數據的安全性,采取適當 的安全措施,如加密、存取控制等,以保護敏感數據的機密性和完整性。

負責任原則 :人工智能數據治理應該遵循道德和倫理標準,保證 對數據和個人私密的尊重,避免歧視和不公平的結果。

公正性原則 :人工智能數據治理應該確保公正和平等的對待所有 使用者和利益相關方,不偏袒特定群體或個人。

可審計原則 :人工智能數據治理應建立審計機制,對數據的收集、 儲存、處理和使用等過程進行監控和記錄,以便及時發現和解決潛在問題。

二、 面向人工智能數據治理的重點工作

數據治理理論已有多年的發展,相關治理逐步趨於完善和成熟。 然而,針對人工智能領域的數據治理,由於治理物件與評價方式的特殊性,各方實踐仍處於初步探索階段。本章節我們將從數據質素治理、數據安全與私密治理、數據倫理治理三方面展開探討,為人工智能場景下的數據治理工作提供指導。這三大重點工作與傳統的數據治理理論過程類似(如 PDCA 迴圈、安全分級分類等),但鑒於人工智能套用場景的特殊性,其在技術和實施細節上有所差異。

(一) 數據質素治理

推進面向人工智能的數據質素治理是保障人工智能套用高質素、 準確、持續可用的重要基礎,這要求企業找準人工智能套用建設過程中的數據質素治理需求,把握人工智能數據質素治理與傳統數據質素治理的差異,精準辨識人工智能數據質素治理的範圍和物件,從而幫助企業科學設計人工智能數據質素治理的機制、方法和步驟,建設面向人工智能的全面的數據質素治理技術能力,以良好的數據質素治理實踐預防和杜絕數據質素問題,提高人工智能套用的效能和效果。

1. 治理方法

面向人工智能的數據質素治理是確保數據質素對人工智能模型效 果的重要保障。數據質素管理貫穿於人工智能研發、管理和套用的整個生命周期,需要建立一套完善的數據質素管理體系,制定相應的數據質素管理制度和流程,並明確各環節的責任和要求。同時,還需要建立有效的數據質素評估和監控機制,以確保數據質素符合要求,為人工智能模型的訓練、調優提供高質素、高可信度的數據資源,從而提升模型表現效果。

1) 需求分析與質素目標設定

在面向人工智能的數據治理過程中,數據質素治理始於需求分析 與質素目標設定階段。明確人工智能套用對於數據質素和數量的具體需求,設立針對性的數據質素基準和目標。透過這一系列的數據需求分析與質素目標設定工作,可以為後續的數據清洗、預處理、特征工程、標註和增強等數據質素管理活動提供清晰的方向和依據,確保整個數據治理體系圍繞既定目標有序展開,最終提升人工智能模型的效能和穩定性。

2) 制定數據質素管理體系

在面向人工智能的數據治理過程中,制定數據質素標準和規範是 極為關鍵的一環,其主要任務是建立一個全面、嚴謹的數據質素評價指標體系。透過這樣的數據質素標準和規範體系,能夠對數據治理過程中的數據進行全方位、多層次的質素評估,指導數據清洗、預處理、標註等活動的開展,進而保障人工智能套用所用數據的質素,推動模型訓練和套用效果的提升。

3) 資料來源評估及采集

從數據的源頭控制好數據質素,讓數據「規範化輸入、標準化輸 出」是解決人工智能數據質素問題的關鍵所在。同時不僅關註數據來源的可靠性,而且考慮數據是否涵蓋足夠的維度和場景,確保數據來源、質素和多樣性。

4) 數據預處理

數據標註與數據增強是數據質素管理活動中不可或缺的部份,它 們能夠在有限的數據資源基礎上,透過創新技術和策略,生成大量高質素的訓練數據,有力支撐人工智能模型的高效訓練和準確預測。

a. 數據清洗 :此階段聚焦於消除數據中的錯誤、不完整、不一致 和重復等問題。具體措施包括:  缺失值處理 :透過填充(如使用平均值、中位數、眾數等)、 插值或其他方法處理缺失值。  異常值檢測與處理 :辨識並移除或者替換那些明顯偏離正常範圍的數據點,防止其對模型訓練產生不良影響。  數據一致性校驗 :對同一實體在不同資料來源中的記錄進行 比對和整合,保證數據的一致性。  去重處理 : 辨識並移除非唯一標識的重復數據記錄,避免 因重復樣本導致的模型訓練偏差。

b. 數據標註 :在某些 AI 任務中,尤其是監督學習場景下,模型 需要依賴帶有標簽的高質素數據進行訓練。高質素的數據標註能有效提高模型理解和學習數據的能力,為後續模型訓練奠定基礎。

c. 數據增強 :即使經過精心標註,實際可用的數據量也可能受限, 這可能會導致模型過擬合等問題。數據增強技術旨在透過一系列規則或演算法人為地擴增訓練數據,如在影像辨識任務中采用翻轉、旋轉、裁剪、色彩變換等方式生成新的訓練樣本;在文本數據上,可透過同義詞替換、句式變換等方式生成不同的表達形式。數據增強不僅可以有效擴大訓練樣本空間,還可以提高模型的泛化能力和魯棒性,降低過擬合的風險。

5) 特征工程

對已預處理過後的數據,可能仍然存在不滿足人工智能需求,其 目的是透過對已清洗和預處理過的數據進行深層次的分析和轉換,提取、構造出最具價值的特征,以滿足後續人工智能模型構建的需求。透過特征工程的實施,可以極大提升數據對於人工智能模型的解釋能力和預測能力,進而增強模型的泛化能力和實用性。

6) 數據偏見檢測與矯正

在數據治理的過程中,深入挖掘並矯正數據偏見是構建負責任且公平的人工智能系統的基石,有助於避免 AI 套用在社會生活中可能 造成的歧視和不公。 a. 數據偏見檢測 :數據偏見檢測主要透過統計分析、視覺化手 段以及特定的偏見評估框架來發現潛在的不公平現象。例如,在分類任務中檢查不同群體的誤分類率是否存在顯著差異,在回歸任務中審視因變量預測值是否受無關內容(如性別、種族)的影響過大等。 b. 偏見矯正 :在發現數據存在偏見後,數據質素管理活動會采 取一系列措施來矯正這些偏見,從而提升模型決策的公平性。

7) 常態化數據質素監控

a. 模型訓練階段的數據質素監控 :在模型訓練前,系統應具備 即時數據質素監測功能,對輸入的訓練數據持續進行完整性、一致性、精確性、及時性等方面的監控。一旦發現數據異常或質素問題,如數據分布突然變化、出現大量缺失值、新增數據格式不合規等情況,應及時觸發告警機制,以便快速定位問題源頭並采取相應措施進行修復或清洗。只有確保數據質素達到預期標準,才能將其用於模型訓練和 微調,以期得到精準、可靠且具有泛化能力的 AI 模型。

b. 模型推理階段的數據質素監控 :即使模型進入推理階段,數 據質素監控工作依然不能松懈。對於模型接收的即時或批次推理請求所攜帶的數據,也需要執行嚴格的數據質素檢查,確保數據格式正確、內容合法、業務邏輯合理,避免無效數據、惡意攻擊數據或不符合模型輸入規範的數據對模型執行造成幹擾或損害。透過即時數據質素監控,能夠迅速發現並攔截有問題的數據輸入,保障模型推理的穩定性和準確性

8) 持續改進

在面向人工智能的數據治理過程中,數據質素管理活動的持續改 進是一個動態叠代、持續最佳化的過程。不斷地總結經驗教訓,最佳化數據質素管理的方法和流程,實作數據質素的螺旋式上升,從而為人工 智能系統提供更為精準、可靠的數據支撐,推動 AI 技術的健康發展。 該過程可能包括:定期復盤過去的數據質素管理活動,總結成效、發現問題,為改進提供方向;提煉經驗教訓,制度化有效策略並規避同 類問題;緊跟 AI 技術發展,最佳化數據采集、預處理、清洗、標註等 環節,提升管理方法和流程的科學性與高效性;密切關註並適時引入新的數據處理與質素管理工具,以應對復雜挑戰,提高數據質素,促 進 AI 模型訓練與套用效果。

2. 治理技術

在面向人工智能的數據治理過程中,數據質素治理涵蓋了從數據 準備到模型訓練、再到模型部署套用的全過程,每個階段都有相應的數據治理技術來確保數據質素.

數據清洗 :數據清洗是數據預處理中的一項基本任務,旨在去除 數據中的雜訊、異常值和重復資訊。隨著機器學習和人工智能的發展,數據清洗技術也在不斷進步。現在,透過使用自動化工具和機器學習演算法,可以更高效地辨識和糾正數據中的錯誤和不一致性,提高數據的質素和可靠性

自動化與智能標註 :傳統的數據標註方法通常需要大量的人工勞 動,成本高昂且耗時。為了解決這個問題,自動化標註技術應運而生。自動化標註使用機器學習演算法和電腦視覺技術自動辨識和標註數據,大大提高了標註效率並降低了成本。對於某些復雜的數據類別,完全自動化的標註可能無法達到高精度。在這種情況下,互動式標註和可編輯的標註成為一種有效的解決方案。這些方法允許使用者對自動標註的結果進行手動編輯和調整,以提高標註的準確性和精度。

特征工程 :特征工程是將原始數據轉換為特征向量,供機器學習 演算法使用的技術。隨著機器學習和人工智能技術的發展,特征工程技術正朝著自動化和智能化方向發展。透過使用機器學習演算法和自然語言處理技術,可以自動辨識和轉換數據中的特征,提高數據處理的效率和準確性。

數據增強 :數據增強是透過生成新的訓練樣本擴充套件數據集的技術。 在深度學習和電腦視覺領域中,數據增強扮演著重要的角色。透過使用旋轉、翻轉、裁剪等技術,可以增加數據的多樣性和豐富性,從而提高模型的泛化能力。

多模態數據處理和分析 :隨著多模態數據的普及,數據質素特征 工程技術正朝著多模態數據處理和分析方向發展。多模態封包括文本、影像、音訊和影片等多種形式,每種形式都有自己的特征和內容。透過多模態數據處理和分析技術,可以綜合利用不同模態的數據,提高數據分析和預測的準確性和可靠性

(二) 數據安全與私密治理

1. 治理方法

1) 建立數據全生命周期安全監督機制

為確保數據全生命周期的安全性,需建立包含數據采集、處理、 儲存及輸出的全面安全保障機制。這涉及確保數據集多樣性與公平性、實施數據處理與加密措施、制定嚴格的數據使用規定等。在數據治理 中,透明度與知情權的保障至關重要,需明確告知使用者數據收集目的,並允許使用者自主決定是否共享個人資訊,增強私密控制。遵循數據最小化原則,僅收集必要的個人數據,並定期審查清理,以降低私密風險,確保數據安全。

2) 制定數據集安全風險分類管理體系

為應對人工智能領域的安全挑戰,需構建一個基於套用場景、影 響範圍和風險的分類分級管理體系。該體系應對高風險領域進行定期的數據安全能力評估,並根據風險級別采取差異化的管理策略,實作精細化管理。首先,明確私密數據的定義和範圍,對數據進行等級分類,指導數據使用模組對不同安全等級的數據進行模糊化處理,以降低泄露風險。數據安全管理應貫穿整個數據治理生命周期,透過分類分級為資訊保安管理提供指導,幫助制定安全策略和保護措施,確保數據治理全面合規。數據分級還涉及對數據破壞後果的預估和公眾危害程度的分析,確保各級數據得到適當保護。其次,建立數據安全管理系統,支持數據分類的增刪、搜尋和敏感詞管理,最佳化資源分配與共享,增強數據安全意識,引導使用者主動保護數據安全。透過這些措施,可以有效地評估和管理數據安全風險,確保數據的安全性和合規性

3) 數據加密

套用先進的加密演算法對數據進行加密,確保數據在儲存和傳輸過 程中的安全。其次,構建全面的安全管理體系,涵蓋安全審計和漏洞掃描等環節,以監測和防禦潛在風險。技術層面上,實施堅固的加密技術和身份驗證機制,防止未授權存取,增強系統的整體安全性。這些措施共同構成了強化數據安全保障的核心,有效抵禦數據泄露和網絡攻擊。

4) 風險評估

為了確保人工智能模型的安全性和可靠性,需要加強模型評估, 以判斷其對潛在威脅的反應能力和逃避監管的可能性。這包括評估模型是否具有危險行為的傾向,並驗證其行為是否與設計預期相符,同時對模型的內部機制進行審查。此外,風險評估是數據治理的持續任務,需要定期執行以辨識和防範數據安全和私密方面的風險。透過這些措施,組織可以制定有效的應對策略,確保數據和私密得到有效保護,及時應對安全挑戰。

5) 教育與培訓

安全與私密是人工智能套用的紅線,為組織內部人員提供關於數 據安全和私密的培訓,增強人員安全私密的意識,有助於構建一個全員參與的安全文化。同時,向使用者提供關於安全實踐和私密保護的教育,使其更加自覺地保護個人資訊,進一步提升整個生態系的安全性。

6) 監管與合規審計

建立有效的監管機制,監督人工智能系統的執行,以及進行定期 的合規審計,確保系統的執行符合相關法規和政策,是保障治理有效性和可持續性的關鍵步驟。透過這一系列綜合的治理方法,可以全面而有效地應對人工智能數據安全與私密治理的復雜挑戰。

2. 治理技術

1) 安全治理技術

異常數據檢測 :利用異常樣本和良性樣本的分布差異或在隱藏空 間上的特征差異,檢測數據中的異常值。 數據增強 :數據增強對於對抗攻擊、後門攻擊、投毒攻擊來說都 是有效防禦機制,在豐富數據集多樣性的同時,可降低異常數據的有效性。 魯棒訓練 :透過改進訓練過程來降低惡意數據的影響,提高大模 型面對對抗樣本的預測準確率 數碼浮水印 :浮水印技術是一種在數據中嵌入隱蔽標記的方法,用於 追蹤數據來源,增強數據安全性和可溯源性。技術的最新進展在於對抗性浮水印,它透過復雜演算法和模型抵抗包括篡改和定向攻擊在內的多種攻擊,保護數據完整性和私密。 安全對抗 :安全對抗技術對人工智能數據安全與私密治理至關重 要,安全對抗技術是一種主動的安全策略,透過模擬攻擊行為來預先發現和修復系統潛在漏洞。透過提高安全對抗技術的有效性,人工智能系統能夠更主動、全面地保護數據安全,確保使用者資訊不被惡意獲取或濫用。 加密與脫敏 :加密技術和安全協定是確保數據在傳輸和儲存過程 中不被未授權存取、竊聽或泄露的關鍵手段,尤其是在雲環境或網絡傳輸中。數據脫敏技術透過變形敏感資訊,保護個人私密,同時保持 數據的可用性,降低私密風險,對 AI 數據安全治理起著核心作用。

2) 私密治理技術

差分私密 :透過對數據加噪,確保訓練集中某一數據不論存在與 否,對模型預測結果的影響都有限,從而阻止攻擊者根據模型輸出推斷數據集中的具體數據資訊。 同態加密 :同態加密在明文和密文上進行計算得到的結果相同, 因此可以直接在加密後的私密數據上進行運算,保障數據私密。但同態加密時間復雜度高,面對海量數據效率較低。安全多方計算:安全多方計算允許各參與方輸入對其他方保密的情況下,根據輸入共同計算一個函數,確保了整個系統中個體敏感數據的私密性。 匿名化 :匿名化技術的最新進展集中在不可逆加密方法和差分隱 私技術上。不可逆加密方法透過使用無法逆向解密的演算法,確保個體身份資訊在處理後無法還原,有效保護數據主體私密。差分私密技術則透過在數據釋出或處理時加入雜訊,防止重新辨識攻擊,保護個體身份資訊不被泄露。 概念擦除 :概念擦除技術透過修改數據中的敏感資訊來降低私密 泄露的風險。最新的概念擦除方法不僅關註私密保護,還考慮在資訊擦除的同時保持數據的分析可用性。

(三) 數據倫理治理

1. 治理方法

1) 制定數據倫理政策

2) 提升透明度和可解釋性

3) 規範數據收集和標註

4) 開展風險評估和緩解措施

5) 定期審查和更新

2. 治理技術

偏差檢測和糾正 :辨識演算法中存在的偏見,並透過調整演算法參數 或重新訓練來消除偏見。 反歧視性演算法設計 :確保演算法在處理數據時不會因種族、性別、 宗教等因素產生歧視。 責任與可追溯性技術 :確保 AI 系統的決策過程有清晰的記錄,出 現問題時可以追溯到責任方。

三、 面向人工智能的數據治理步驟

當前產業對於人工智能的工程建設工作包括數據收集、數據預處 理 / 清洗、特征工程、數據標註、數據劃分、數據增強、模型訓練、 模型驗證與測試、模型推理等九個階段。

過程上,總體由業務方提出需求後,數據工程師、演算法工程師、 數據科學家等角色進行分頭開發。其總體上缺乏一套科學的方法論將各個團隊、人員、角色進行串聯,形成「流水線」式的作業。從而往往導致團隊間的協作困難、工作效率不高、工作成本不低、責任分工不清、套用效果不及預期等問題。

透過利用 DataOps1 所強調的加強團隊間協作溝通、要求數據流程 具有可重復性和可追溯性、重視自動化和持續整合、關註數據集的監控和持續改進、強調數據流程的監控與反饋等特性。能夠有效改善這些問題,實作數據流程的自動化、質素管理的持續改進以及合規性、倫理性和私密保護的強化,從而提高人工智能專案的效率和效果。 以下我們將創新性的提出利用 DataOps 理念來賦能人工智能模型 研發、治理和營運的一體化流程方法,為產業提供一種實踐思路,並在今後的報告中不斷打磨。

(一)明確套用目標與需求

確定套用目標與效果 :首先,與相關方共同明確人工智能套用的 目標和預期效果。這可能涉及解決的業務問題、改善的業務流程或實作的業務目標。 明確套用場景 :確定人工智能套用的具體場景和套用範圍。這包括確定套用的環境、使用者和操作方式。 澄清數據需求 :與演算法方、需求方和數據方共同澄清所需的數據類別、數據數量和數據質素標準。這可能涉及確定需要的數據來源、 數據格式、數據標簽等。 評估數據獲取難度 :評估當前已有數據與所需數據的可獲取性和 使用難度。這包括考慮數據獲取的法律、道德和技術限制,以及數據采集和標註的成本和時間

(二)設計數據集治理要求與規範

制定數據標註流程 :制定清晰的數據標註流程,包括數據標註的 步驟、標準和質素控制措施。這可能涉及確定標註人員的資質要求、標註工具的選擇和標註結果的稽核流程。

明確數據質素標準 :明確數據質素的衡量標準和評估方法,包括 數據準確性、完整性、一致性和可靠性等方面。這可以透過制定數據質素指標和監控機制來實作。

考慮合規和私密要求 :確保數據采集、標註和使用過程符合法律、 道德和行業規範的要求,特別是涉及個人私密和敏感資訊的情況下。這可能涉及制定數據保護策略、存取控制機制和數據使用協定。

管理規範持續更新 :建立一個持續更新的數據管理規範,確保規 範與技術發展和業務需求的變化保持同步。這可能包括定期審查和更新數據管理政策、流程和工具

(三)開展數據集處理與研發

數據清洗和標註 :進行數據清洗、標註和預處理,以確保數據質 量和一致性。這可能涉及辨識和處理數據中的噪音、缺失值和異常值, 以及為數據添加標簽和後設資料。 特征工程和數據增強 :進行特征工程和數據增強,以提取數據的 有效特征並增加數據的多樣性。這可以透過使用統計方法、機器學習演算法和數據增強技術來實作。 溝通與驗收 :加強演算法方與數據方的溝通,確保數據處理過程中 的偏差得到及時糾正。這可能包括定期的數據處理進展報告和演算法人員的階段性驗收動作

(四)進行數據集洞察與交付

數據集持續維護 :對交付的數據集進行持續維護和更新,確保數 據集的及時性和適用性。這可能包括定期的數據質素評估、數據集版本管理和數據集許可權管控

(五)持續數據集營運與最佳化

構建監控指標體系 :構建全域的監控指標體系,綜合考慮數據集 的使用頻率、更新頻率、質素評價和成本效益等方面。這可以透過建 立數據集營運指標和監控儀表板來實作。 持續最佳化數據集流程 :對整個數據集構建周期的流程進行持續優 化,提高數據集的效率和效果。這可能包括對數據處理流程的自動化、工作流程的最佳化和團隊協作的改進等方面。

四、 展望

(一)人工智能數據產業分工更加明確

總體來看,產業中存在大量對數據的重復標註、重復采集、重復 加工的現象。這無疑是對時間、資金、資源和人才的鋪張浪費。未來,供給人工智能數據集的產業在采集、加工、交易、消費等環節將更加清晰和成熟,透過市場化的調節機制可以合理分配產業的人才、資金與資源,更高效的推進人工智能套用發展。

(二)數據治理或成為大模型的勝負手

當前,產業界普遍透過大力發展大模型產品套用來搶占市場份額。 然而,隨著市場集中度的提高(馬太效應),只有少數企業可能在這場競爭中勝出。透過有效的數據治理,企業將有可能獲得有利競爭。

(三)服務化

隨著 DG4AI 技術、實踐和理論的成熟, DG4AI 將更加標準化與 流程化,進而發展為服務化,能夠高效、高質素、安全可控的提供標準的數據產品(數據集、語料庫)。

來源: CCSA TC601 大數據技術標 準推進委員會