人工智能訓練數據枯竭，合成數據引發巨大爭議與討論

2024-08-26科技

AI培訓資料日益匱乏，人工生成的資料引起熱議

近年來，隨著人工智能技術的飛速發展，大量的訓練數據已經逐漸被人們所重視，其中，如何快速、低成本地產生大量的數據，是一種極具誘惑力的方法。但是，另一些與會者表示，綜合的數據可以透過獲取低質素的資料，從而使 AI模式"自我中毒"，從而造成"模型崩潰"。

目前，人工智能產業有一個很大的問題，那就是要用來培養更加智能化的模式所需要的實際數據越來越少。研究顯示，人薪金料"毒害"了人工智能，而這些資料又是低劣的。

人工智能的發展已經到了喪失其最有價值的資源的地步，這使得業界領袖們對迅速發展起來的替代方案——人造或者"偽造"數據進行了一場熱烈的爭論。

近年來，包括 OpenAI在內的谷歌（163.95,-1.44,-0.87%）在內的眾多企業已經開始透過網絡采集海量的海量資訊，為它們的人工智能技術提供支持。這些 LLMs負責的文本，影片以及其他的媒介，在過去的幾個世紀裏，人們創作了大量的文字，影片，以及其他的媒介，不管是研究論文，小說，或者是 Youtube影片片段。

但如今，人工生成的"真實"資料並不多。研究公司 Epoch AI預計，到2028，文字資料將會被消耗殆盡。同時，一些企業為了獲得更多的資訊，會不惜一切代價地從網絡上搜尋有用的培訓資料，而這些企業也會因此而受到更多的約束。

對一些人而言，這並不是一個問題。山姆-柯曼是 OpenAI的 CEO，他曾經指出， AI模式最後應當可以產生高品質的人造資料，以便高效地進行自我培訓。這種想法很明顯：在人工智能蓬勃發展的今天，培訓資料已經是最寶貴的資料，而且這種可以不受限制地產生成本低廉的資料，肯定是非常誘人的。

不過，研究者們對於人工合成的資料究竟是不是萬能藥仍然持懷疑態度。有人表示，這樣的做法有可能造成透過獲取低質素的資料而使人工智能模式"自我中毒"，從而使模式"崩潰"。

來自英國牛津與劍橋兩所大學的一支科研團隊日前釋出了一份報告，認為把由人工智能產生的資料匯入到一個模式中，最後可能會讓這些資料變得毫無價值。筆者認為，由人工智能產生的資料，也不是絕對不可供學習之用，而是應該與實際資料加以均衡利用。

高德納（Gartner）預計，到2024年，人工智能發展所需的資料將會有60%是人工生成的。

「這是個危機，」紐約大學的一位退休的心理與神經系統科學教授，人工智能分析師加利-馬庫斯說道。過去，人們幻想著透過不斷增加的數據量，可以極大地改善大規模的編程模式的效能，但是目前，他們實際上已將現有的數據全部耗盡。

他還說：「不錯，人工數據確實能幫我們處理某些問題，但是更深層的問題在於，我們現在所做的一切都沒有計劃好。」任何你可以想到的人造資料，都不能解答這一基本的問題。

不斷增加的公司產生人工數據

對於"假"的資料的需要依賴於這樣一個重要的理念：即真正的資料正在快速短缺。

原因之一是，技術公司都在盡可能快的使用公共資訊來培訓自己的 AI，從而超過他們的競爭者。而網絡使用者則對那些可以自由存取他們的資訊的公司產生了更多的疑慮。

2020年， OpenAI的研究者披露，他們正在利用來自 Common Crawl公司的自由資料，後者擁有"近萬億字"的網上資料。

七月份，來自「資料來源行動」的一份報告指出，一些主要的網絡站點也開始采取一些限制來阻止一些 AI公司對非他們個人資訊的利用。報紙和其它流行的站點也逐漸停止了對人工智能公司的免費存取。

為此，像 OpenAI和谷歌這樣的公司花了幾千萬美金從 Reddit以及其他的新聞媒介中獲得最新的數據來給我們的模式進行培訓。不過，就算是這樣，也有它的限制。

"艾倫 AI研究所的研究員內森-蘭伯特在五月曾寫到："在文字網路中，已沒有大量可供捕捉的地方了。

在這裏，綜合的資料就派上用場了。合成的數據不是從現實生活中提取出來的，它是透過一個基於實際的數據進行訓練的，透過一個基於實際的數據集進行訓練的智能系統產生的。

6月，輝達公布了一種人工智能模式，該模式可以產生人造的數據，供培訓和校正使用；7月，中國高技術公司騰訊公司釋出了一種綜合資料產生器，叫做 Persona Hub，它也擁有相似的特性。

像 Gretel和 SynthLabs這樣的新興企業，就是為了產生海量的特殊資訊，然後把它們賣給有需求的公司。

合成資料的鼓吹者提出了他們的套用正當性。就像真實的社會，人工產生的資料通常是混亂無序的，研究者們需要經歷一系列繁瑣的整理和標註才能運用。

合成的資料能夠彌補人力資料所不能彌補的不足。比如，7月末， Meta釋出了 Llama3.1，一個能夠產生綜合數據並在培訓期間進行"微調"的新型人工智能模式。合成的數據可以幫助你改進你的建模能力，特別是對於一些技巧，比如使用Python, Java, Rust，和一些數學難題。

綜合培訓對於小規模的人工智能模型尤其適用。微軟（Microsoft）在過去一年中（406.81,0.79,0.19%）表示，他們為 OpenAI開發了一系列3到4歲孩子都能辨識的詞匯，並讓它們用來寫一些簡短的文章。所產生的資料集合是用來建立一組小型但功能很強的語言模式。

另外，人工數據對實際數據造成的偏離也作出了"反校準"。2021年，谷歌研究員提姆尼特-格布魯、瑪格麗特-米曹等人釋出了一篇名為【論隨機鸚鵡的危險】的文章。

四月份，一個來自谷歌深層挖掘的研究團隊釋出了一份文章，提倡利用人工數據來處理在訓練過程中存在的數據匱乏以及對使用者的保護。它們註意到，保證精確而公平地由人工智能產生的資料"依然是一項重大的挑戰"。

「哈布斯堡的 AI」。

然而，在挖掘人工數據優勢的同時，也存在著一系列亟待解決的問題，比如：人工生成的大樣本對 AI的影響。

Meta公司在其對 Llama3.1的報告中表示，其最近型號的自我產生的數據具有4050億個參數，用於培訓是"沒有幫助"的，而且還可能"降低效能"。

上月出版於【自然】期刊的一篇文章指出，對模擬實驗進行"濫用"可能會造成「無法挽回的誤差」。研究者稱這是一種"模型崩潰"，並且說，要想讓我們從使用網絡大數據中獲益，我們就應該嚴肅地看待這個問題。

莫拿殊大學的資深學者傑森-薩多斯基給這個概念起了一個名字：「哈布斯堡的 AI」，它的原型是奧地利的哈布斯堡家族，被某些歷史學家稱為是由於內部通婚導致的。薩多斯基在接受【商業內幕】采訪時表示，由於對人工智能產生的最終模式過於依靠人工智能產生的最終模式會引起基因變異，因此他一直認為自己的看法是對的。

薩多斯基表示：「有一個問題一直困擾著研發 AI系統的科研工作者和企業：到底要有多大的數碼？」他還表示，要想辦法應對 AI體系裏的資料匱乏問題，就必須尋找不同的方法，但是他同時也註意到，這些辦法也許只能治標不治本，而且最後有害無益。

不過，4月公布的一份研究報告指出，在將"真實"與人工數據結合起來進行培訓的模式中，未必出現"崩潰"的情況。如今，有些公司把自己的前途寄托於"混合數據"之上，這種數據是由半實際的數據產生的，這樣就可以防止建模失去控制。

Scale AI公司（Scale AI Inc.）稱，該公司（Scale AI Inc.）稱，其正致力於"混合數據"的開發，甚至包括將復合與不復合的資料結合起來， Scale AI （Scale AI）的 CEO Alexander Wang （Alexander Wang）近期稱，"混合型數據才是將來的趨勢。

尋求另一種方法

由於僅僅向模型中塞入大量的資料，因此，人工智能也許必須采用一種新的方式來解決問題。

一月份，來自谷歌深層挖掘團隊的研究團隊展示了另外一種方式的優勢。那時，這家公司公布了Alpha米，一個可以解答奧林匹克級別的幾何難題的人工智能系統。

研究者們在一份附加文章中提到，Alphaometry使用了"神經符號"方式，它將其它人工智能方式的優點相融合，既有深度學習模式又有依靠大數據的規則推斷。IBM (189.48,-1.97,-1.03%）的研究小組認為，這種技術可以成為一種普遍意義上的人工智能（AGI）。

在Alphaometry方面，這個系統全部利用人工數據來進行培訓。

神經-標記的人工智能研究是一個比較新的研究方向，它是否能夠促進 AI的發展仍需拭目以待。

由於像 OpenAI，谷歌，微軟這樣的公司都承受著把 AI的繁榮轉變成盈利的巨大壓力，所以可以預料他們將會用不同的方法來處理這場「數據危機」。

加利-馬庫斯表示：「除非我們有一個嶄新的方案，否則，我們將面臨很多困難。（商務資料）

文章由喬杜裏等人撰寫，題目是：【人工智能訓練數據日漸枯竭,合成數據引發巨大爭議】。