規避「垃圾」數據，MIT開發新工具幫助甄選合適的訓練數據集

2024-09-04科技

（來源：MIT News）

為了訓練更強大的大型語言模型（LLM），研究者們使用了來自數千個網絡來源的海量數據集。

但隨著這些數據集被不斷組合和重新組合，關於它們來源的重要資訊以及使用的限制往往在過程中遺失或混淆。

這除了會引發法律和倫理問題外，還可能影響模型的效能。具體來說，如果一個數據集被錯誤分類，訓練機器學習模型的人可能會在不知情的情況下使用不適合該任務的數據。

此外，來源不明的數據可能包含偏見，導致模型在實際套用中做出不公平的預測。

為提高數據透明度，MIT 及其他機構的一個跨學科研究團隊對 1800 多個常見數據集進行了系統審計，發現超過 70% 的數據集缺少某些特許資訊，約 50% 的數據集包含錯誤資訊。

基於這些發現，研究團隊開發了一款名為「數據來源探索器」的使用者友好的工具，該工具能夠自動生成數據集的建立者、來源、特許和允許使用方式的易於閱讀的總結。

MIT 媒體實驗室人類動力學小組負責人、該專案研究報告的合著者 Alex「Sandy」Pentland 教授表示：「這些工具可以幫助監管者和從業者在部署 AI 時做出明智決策，並推動 AI 的負責任發展。」

「數據來源探索器」可以幫助 AI 從業者選擇適合模型目標的數據集，從而構建更有效的模型。長期來看，這有助於提升 AI 模型在實際套用中的準確性，例如在評估貸款申請或回應客戶查詢時。

MIT 人類動力學小組的研究生、該論文的共同第一作者 Robert Mahari 指出：「了解 AI 模型的能力和局限性，最好的方式之一就是理解它所訓練的數據；當數據來源不清或混淆時，透明性就成了一個嚴重的問題。」

（來源：Nature Machine Intelligence）

Mahari 和 Pentland 的共同作者包括媒體實驗室的研究生Shayne Longpre，領導Cohere for AI 研究實驗室的 Sara Hooker，以及來自 MIT、加州大學艾榮分校、法國利爾大學、科羅拉多大學保特分校、奧林學院、卡內基梅隆大學、Contextual AI、ML Commons 和 Tidelift 的其他研究人員。目前這項研究已經發表在 Nature Machine Intelligence 雜誌上。

註重微調

研究者常用一種稱為「微調」的技術來提高大型語言模型在特定任務上的效能，如問答系統。為此，他們精心構建了提升模型針對單一任務表現的精細化數據集。

MIT 的研究者們特別關註這些微調數據集，它們通常由研究人員、學術機構或公司開發，並帶有特定的使用特許。

當眾包平台將這些數據集聚合到更大的集合中供從業者微調使用時，原始的特許資訊往往會被忽略或遺失。

Mahari 說：「這些特許應該是重要的，並且應該是可執行的。」

例如，如果數據集的特許條款有誤或缺失，有開發者可能會花費大量時間和金錢開發一個模型，但最終因為某些訓練封包含私人資訊而不得不將其下架。

Longpre 補充說：「人們可能最終會訓練出一些模型，而對這些模型的能力、問題或風險根本不了解，然而這些問題最終都源自數據。」

在這項研究的開端，研究人員正式定義了數據來源，包括數據集的來源、建立和特許歷史，以及其特征。基於這些特性，他們開發了一種結構化的審計程式，對來自熱門線上儲存庫的 1800 多個文本數據集進行了審查。

在發現超過 70% 的數據集含有「未指明」的特許資訊後，研究人員透過反向追溯填補了這些空白。透過他們的努力，這些「未指明」特許的數據集比例降至約 30%。

他們的工作還揭示出，正確的特許往往比儲存庫分配的特許更具限制性。

此外，他們發現幾乎所有的數據集創作者都集中在全球北部，這可能會限制模型在其他地區的套用能力。Mahari 解釋道，由美國和中國研究人員建立的土耳其語數據集可能不包含任何文化上重要的內容。

他說：「我們幾乎在自欺欺人，認為這些數據集比實際情況更加多樣化。」

有趣的是，研究人員還觀察到，2023 年和 2024 年建立的數據集限制顯著增加，這可能是由於學術界擔心其數據集被用於未經授權的商業目的。

使用者友好型工具

為了讓他人無需手動審計就能獲得這些資訊，研究團隊構建了「數據來源探索器」工具。該工具除了可以根據特定標準對數據集進行排序和篩選外，還允許使用者下載一個數據來源卡，提供數據集特征的簡明、結構化概述。

Mahari 說：「我們希望這是向前邁出的一步，不僅是為了了解現狀，還能幫助人們在未來就所使用的訓練數據做出更明智的選擇。」

未來，研究人員希望將他們的分析擴充套件到多模態數據，如影片和語音，並研究數據來源網站的服務條款如何在數據集中得到反映。

隨著研究範圍的擴充套件，他們還在與監管者接觸，討論其發現以及微調數據所帶來的獨特版權問題。

Longpre 說：「我們需要從一開始就關註數據的來源和透明性，在數據集建立和釋出時，這樣才能讓他人更容易獲取這些見解。」

EleutherAI 的執行董事 Stella Biderman 曼表示：「許多政策幹預措施假設我們可以正確分配和辨識與數據相關的特許，而這項工作首先表明情況並非如此，並顯著改善了可用的數據來源資訊。此外，第三部份包含相關的法律討論。這對那些沒有專門法律團隊的公司外的機器學習從業者非常有價值。許多希望構建公共利益 AI 系統的人目前都在默默掙紮，試圖弄清楚如何處理數據特許問題，因為互聯網的設計讓搞清楚數據來源變得很麻煩。」

原文連結：

https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830