下一代AI：訓練時發現互聯網數據不夠用

2024-04-02科技

OpenAI和Anthropic等公司正在設法尋找足夠資訊來訓練下一代AI模型，數據是供不應求的幾種重要AI資源之一

急於開發更強大AI的公司面臨一個新問題：開發的功能越強大，需要的資訊越多，互聯網能提供的數據太少了

在一些數據所有者遮蔽AI公司對自身數據存取的情況下，這種需求導致互聯網上可用的優質公共數據池變得緊張

一些企業高管表示，大模型訓練對高質素文本數據的需求可能會在兩年內超過供應量，從而有可能減緩AI的發展

AI公司正在尋找尚未開發的資訊源，並重新思考如何訓練這些系統

OpenAI已經討論將公開的YouTube影片裏所說的內容轉換成文本，並以此為基礎訓練該公司的下一個模型GPT-5

一些公司還在嘗試使用AI生成的數據作為訓練材料，許多研究人員表示，這種方法實際上可能會造成嚴重的故障

這些做法通常都是秘密，因企業高管認為解決方案也可以是一種有利競爭，數據短缺是一個前沿性的研究問題

數據是供不應求的幾種重要AI資源之一，行業領導者擔心的還有數據中心和這些中心所需電力的不足

在ChatGPT、谷歌的Gemini和其他AI機器人背後執行的大型語言模型所需的芯片也很稀缺，想買都買不到

一般來說，AI模型訓練的數據越多，能力越強。OpenAI對這種方法押下了大註，由此成為世界上最著名的AI公司

AI語言模型是利用從互聯網上獲取的文本建立的，這些文本包括科學研究、新聞報道和維基百科條目

這些材料被分解成詞元(token)，即模型用來學習如何構建類似人類表達的單詞和部份單詞

Sora是OpenAI新近公布的一個人工智能模型，可以根據文本提示生成逼真的影片

OpenAI技術長米拉·穆拉提解釋了Sora的工作原理，談論其完善計劃，但回避有關模型訓練素材的一些問題

OpenAI沒有透露其目前最先進的語言模型GPT-4的詳細訓練材料，GPT-4已成為高級生成性AI系統的行業標準

AI語言模型是利用從互聯網上獲取的文本建立的，這些文本包括科學研究、新聞報道和維基百科條目

這些材料被分解成詞元(token)，即模型用來學習如何構建類似人類表達的單詞和部份單詞

但據研究人員的估計，GPT-4的訓練素材已經多達12萬億個詞元

根據一個名為Chinchilla擴充套件定律的電腦科學原理，如果想繼續遵循當前增長軌跡，像GPT-5這樣的AI系統將需要60萬億到100萬億個詞元的數據

即使利用所有可用的高質素語言和影像數據之後，仍可能至少存在10萬億個-20萬億個詞元的缺口，尚不清楚如何彌補這一數據缺口

企業高管和研究人員表示，高質素數據到2024年中期供不應求的可能性為50%，到2026年供不應求的可能性為90%

可在網上獲得的大部份數據對AI訓練來說並無用處，因為存在句子殘缺等缺陷，或者不能增進模型的知識

分析師估計，互聯網上的數據只有一小部份對此類訓練有用，這些網絡數據集被AI開發者廣泛使用

與此同時，社交媒體平台、新聞出版商和其他相關方出於對公平補償等問題的關切，對獲取其數據用於AI訓練設限

公眾也很少願意交出私人對話數據（如透過iMessage進行的聊天）來幫助訓練這些模型

朱克伯格最近宣揚Meta Platforms在自家平台上獲取數據的能力，將其當成該公司發展AI業務的一大優勢

Meta可以挖掘旗下各個網絡上數以千億計公開分享的圖片和影片，其總量大於多數常用的數據集

數據挑選工具初創企業DatologyAI采用的一種策略被稱為課程學習，即按照特定順序把數據輸入語言模型，希望AI能在概念之間形成更好的關聯

在2022年的一篇論文中，模型借助半數相關數據就能達到同樣的效果，這有可能降低訓練和執行大型生成式AI系統所需的巨大成本

迄今為止的其他一些研究暗示課程學習這種辦法效果不佳，這是深度學習方面不足為外人道的科研秘密

包括OpenAI的合作夥伴微軟在內，一些科技公司正構建體量僅為GPT-4的一小部份，但可以實作特定目標的較小語言模型

OpenAI行政總裁阿爾特曼已表示該公司正在研究訓練未來模型的新方法

他在去年的一次會議上說：「認為我們正處於一個時代的末期，這個時代由這些巨型模型組成，我們會用其他方式讓它們變得更好。」

OpenAI還討論過建立一個數據市場，在這個市場上OpenAI可以建立一種方法來確定每個數據點對最終訓練模型的價值貢獻程度，並向相關內容的提供者支付報酬

谷歌內部也在討論同樣的想法，但研究人員一直在努力構建這樣一個系統，目前還不清楚他們能否找到突破口

OpenAI還在努力收集一切已有的有用資訊。高管們已經討論過使用自動語音辨識工具Whisper在互聯網上轉錄高質素影片和音訊範例

這些人說，其中一些將透過公開的YouTube影片來實作，這些影片中的一部份已經被用來訓練GPT-4

OpenAI的一位發言人說：「我們的數據集是獨一無二的，我們進行了整理，以幫助我們的模型領悟世界」

她還說，其工具從公開可用的內容中提取資訊，並透過合作夥伴關系獲取非公開數據

一些公司也在嘗試制作自己的數據，輸入本身由AI生成的模型文本，被認為是近親繁殖的電腦科學版本

此類模型往往會出現胡編亂造的現象，一些研究人員稱之為「模型崩潰」

OpenAI和Anthropic的研究人員正試圖透過建立所謂更高質素的合成數據來規避這些問題

在最近的一次采訪中，Anthropic首席科學家Jared Kaplan表示，某些類別的合成數據可能會有所幫助

Anthropic說，正在使用「內部生成的數據」為其最新版本的Claude模型提供資訊，OpenAI也在探索合成數據生成

許多研究數據問題的人士對最終找到解決方案持樂觀態度。研究人員將其比作「石油峰值」，即擔心石油生產可能會觸頂並引發一場痛苦的經濟崩潰

由於新技術的出現，這種擔憂已被證明是不準確的，比如本世紀初的壓裂技術

AI世界也有可能出現類似的發展。「最大的不確定性在於你將看到什麽樣的突破。」