人工智能訓練數據漸枯竭，合成數據引發巨大爭議

2024-08-24科技

人工智能訓練計劃數據耗盡，合成數據引發爭論

訓練數據已成為人工智能熱潮中最有價值的資源之一，能夠以低成本無限量地生產訓練數據的前景無疑很有吸重力。但也有人認為，合成數據會導致人工智能模型在低質素資訊的影響下 "自我發展"，最終導致模型 "崩潰"。

人工智能行業有一個大問題：缺乏訓練更智能模型所需的真實數據。研究表明，由於數據質素低，合成數據可能成為人工智能的 "毒藥"。

人工智能行業最寶貴的資源即將耗盡，行業領袖們正在熱烈討論一種快速增長的替代方法：合成或 "偽造 "數據。

OpenAI 和谷歌 (163.95, -1.44, -0.87%)等公司多年來一直在從互聯網上收集數據，用於訓練大規模語言模型（LLM），這是人工智能工具和能力的核心。這些 LLM 處理人類數百年來創造的大量文本、影片和其他多媒體內容，包括研究文章、小說、YouTube 影片等。

但 "真正的 "人類生成的數據正在枯竭。研究公司 Epoch AI 預測，文本數據將在 2028 年耗盡。在此期間，那些在互聯網各個角落尋找有用的教育數據的公司（有時甚至違反規則）將面臨越來越嚴格的限制。

OpenAI 行政總裁山姆-柯曼（Sam Altman）表示，人工智能模型應該能夠生成足夠高質素的合成數據，以便進行有效訓練。訓練數據已成為人工智能熱潮中最有價值的資源之一，以低成本無休止地生產訓練數據的前景無疑很有吸重力。

然而，研究人員仍在爭論合成知識是否是萬能藥。一些人擔心，這條路可能會導致人工智能模型被低質素數據 "毒害"，從而導致模型 "崩潰"。

牛津大學和劍橋大學研究人員的最新研究表明，將人工智能生成的數據輸入模型可能最終會使結果變得毫無意義。作者認為，人工智能生成的數據並非對學習完全無用，但應與真實世界的數據保持平衡。

2021 分析公司 Gartner 預測，到 2024 年，用於開發人工智能的數據中將有 60% 是人工合成的。

"人工智能分析師、紐約大學心理學和神經科學名譽教授加利-馬庫斯（Gary Marcus）說："這是一場危機。"我們曾幻想透過使用越來越多的數據，可以無限提高大型語言模型的效能，但現在我們幾乎已經使用了所有可用的數據。"

"他說："合成數據可以幫助解決一些問題，但主要問題是這些系統無法進行推理和規劃：人們所能想象的所有合成數據都無法解決這一根本問題。

越來越多的公司正在生產合成數據。

之所以需要假數據，是因為真實數據正在迅速枯竭。

這是因為技術公司利用公開數據盡快訓練人工智能，並超越競爭對手。另一方面，線上數據所有者對免費獲取其數據的公司越來越懷疑。

2020 年，OpenAI 的研究人員報告稱，他們使用了來自網絡爬蟲 Common Crawl 的免費數據，其中包含 "近萬億字 "的網絡資源。網絡資源。

今年 7 月，"資料來源倡議"（Data Source Initiative）釋出的一份研究報告顯示，各大網站正在施加限制，以防止人工智能公司使用不屬於它們的數據。新聞機構和其他熱門網站也越來越多地禁止人工智能公司自由使用其數據。

為了解決這個問題，OpenAI 和谷歌等公司花費數千萬美元從 Reddit 和新聞機構獲取數據，為其學習模型提供新鮮資訊。但即便是這種方法也有其局限性。

"艾倫人工智能研究所研究員內森-蘭伯特（Nathan Lambert）在今年 5 月寫道："文本網絡中不再有許多區域等待被抓取。

這就是合成數據的用武之地。合成數據是由人工智能系統根據真實數據（而非真實數據）訓練建立的。

例如，今年 6 月，輝達釋出了一個人工智能模型，可建立人工數據集用於訓練和校準；7 月，中國科技巨頭騰訊的研究人員釋出了一個名為 Persona Hub 的合成數據生成器，可提供類似功能。

一些新成立的公司，如 Gretel 或 Synthlab，就是為了生產大量特定類別的數據，並將其出售給有需要的公司。

合成知識的支持者認為，應該合理地使用合成知識。與現實世界一樣，人類生成的數據往往雜亂無章，研究人員必須對其進行復雜而艱苦的清理和標記過程，然後才能使用。

合成數據可以填補人工生成數據無法填補的空白。例如，7 月底，Meta 釋出了 Llama 3.1，這是一套新的人工智能模型，可以生成合成數據，並利用這些數據對訓練進行 "微調"。合成數據可以幫助提高模型的效能，尤其是在某些技能方面，如使用 Python、Java 和 Rust 等語言編程，或解決數學問題。

合成學習對小型人工智能模型尤為有效。去年，微軟(406.81, 0.79, 0.19%)報告稱，它向OpenAI模型提供了一份典型的三四歲兒童所認識的不同單詞列表，並要求模型使用這些單詞生成短篇故事。由此產生的數據集被用於建立一套小而強大的語言模型。

合成數據也可用於有效 "重新校準 "真實數據中的偏差。前谷歌研究人員蒂莫西-格布魯（Timothy Gebru）、瑪格麗特-米曹（Margaret Mitchell）等人在 2021 年發表的論文【隨機鸚鵡的危險】（The Dangers of Random Parrots）中指出，根據互聯網上的大量文本集訓練的大規模語言模型很可能會反映出數據中存在的偏差。

今年 4 月，谷歌 DeepMind 的一組研究人員發表了一篇論文，提倡使用合成數據來解決數據稀缺和私密問題。他們指出，確保這種人工智能生成的數據準確無誤、不偏不倚 "仍然是一個關鍵挑戰"。

"哈布斯堡內戰

雖然人工智能行業從合成數據中看到了一些益處，但也存在不容忽視的嚴峻挑戰，例如合成數據可能會損壞人工智能模型的擔憂。

在發表於【Llama 3.1】的一篇研究論文中，Mehta 指出，使用最新模型的 450 億參數版本的自生成數據進行訓練 "毫無用處"，甚至可能 "降低效能"。

上個月發表在【自然】雜誌上的一項研究發現，"濫用 "合成數據來訓練模型會導致 "不可逆轉的錯誤"。研究人員稱這種現象為 "模型崩潰"，並表示如果我們要繼續從線上收集的大量數據中獲益，就必須認真對待這種現象。

莫拿殊大學（Monash University）高級研究員傑森-薩多斯基（Jason Sadowski）從奧地利哈布斯堡王朝（Habsburg dynasty）獲得靈感，創造了 "哈布斯堡人工智能"（Habsburg AI）一詞。薩多斯基告訴【商業內幕】（Business Insider），這一想法得到了越來越多研究的支持，這些研究支持他的觀點，即過度依賴人工智能生成的生產模型可能會導致突變。

"薩多斯基說："建立人工智能系統的研究人員和公司尚未解決的問題是大量的合成數據。他補充說，盡管應該探索所有可能的解決方案來解決人工智能系統中的數據稀缺問題，但其中一些可能只是短期解決方案，最終可能弊大於利。

然而，四月份發表的一項研究表明，使用 "真實數據 "和合成數據來訓練模型並不一定意味著模型會 "失敗"。現在，一些公司正在利用 "混合數據 "對未來進行投資，其中部份真實數據被用來生成合成數據，以保持模型的正常執行。

幫助公司標記和測試數據的 Scale AI 公司表示，它正在探索 "混合數據 "的方向，即合成數據和非合成數據的結合，Scale AI 公司行政總裁亞歷山大-王（Alexander Wang）最近表示："混合數據是真正的未來。

探索替代解決方案

簡單地將數據添加到模型中可能效果有限，因此人工智能可能需要采取新的方法。

今年 1 月，谷歌 DeepMind 研究團隊展示了第二種方法的優勢。隨後，谷歌宣布推出 AlphaGeometry，這是一個能夠解決奧林匹克級幾何問題的人工智能系統。

研究人員在隨附的一篇論文中指出，alphageometry 使用的是一種 "神經符號 "方法，它結合了其他人工智能方法的優勢，介於深度學習模型和基於規則的大數據推理之間。據 IBM 研究小組（189.48, -1.97, -1.03%）稱，這可能是通向通用人工智能（AGI）的一種方法。

特別是在字母階乘方面，只使用合成數據進行了預訓練。

神經心理學人工智能領域相對較新，目前尚不清楚它是否能為人工智能做出貢獻。

鑒於 OpenAI、谷歌和微軟等公司面臨著將人工智能熱潮轉化為利潤的壓力，可以預見，它們將努力尋找一切可能的解決方案來解決數據危機。

馬庫斯說："如果我們不采取全新的戰略，我們仍然會有麻煩。(商業資訊）

本文為【人工智能新智元】撰寫，標題為【人工智能訓練數據即將耗盡，合成數據引發爭論】。