AI「數據荒」怎麽辦？微軟、谷歌等公司正使用「合成數據」訓練AI

2024-05-12科技

財聯社5月12日訊（編輯周子意）人工智能聊天機器人的背後需要海量高質素數據作為支撐。傳統上，人工智能系統依賴於從各種網絡來源（如文章、書籍和線上評論）中提取的大量數據來理解使用者的查詢並生成響應。

長期以來，如何獲取更多的高質素數據成為人工智能公司的一大挑戰。由於數據在互聯網上的可用性是有限的，這促使人工智能公司正尋求一種替代解決方案——合成數據（Synthetic data）。

合成數據，即人工智能系統生成的人工數據。科技公司透過利用自己的人工智能模型，生成合成數據（這也被認為是虛假數據），然後將這些數據用以訓練其系統的未來叠代。

談及合成數據是如何生成的，其過程包括為人工智能模型設定特定參數和提示以建立內容，這種方法可以更精確地控制用於訓練人工智能系統的數據。

例如，微軟的研究人員向人工智能模型列出了四歲孩子能夠理解的3000個詞匯，然後，他們要求該模型使用詞匯表中的一個名詞、一個動詞和一個形容詞來創造一個兒童故事。透過幾天時間內數百萬次的重復提示，模型最終產生了數百萬個短篇故事。

雖然計算中的合成數據並不是一個新概念，但生成式人工智能的興起促進了大規模建立更高質素的合成數據。

人工智能初創公司Anthropic行政總裁Dario Amodei將這種方法稱為「無限數據生成引擎」，旨在避免與傳統數據采集方法相關的一些版權、私密等問題。

現有用例與分歧觀點

目前，Meta、谷歌和微軟等主要人工智能公司已經開始使用合成數據開發高級模型，包括聊天機器人和語言處理器。

例如，Anthropic使用合成數據為其聊天機器人Claude提供動力；谷歌DeepMind則使用這種方法來訓練能夠解決復雜幾何問題的模型；與此同時，微軟已經公開了使用合成數據開發的小型語言模型。

有支持者認為，如果適當實施，合成數據可以產生準確可靠的模型。

然而，一些人工智能專家對與合成數據相關的風險表示擔憂。著名大學的研究人員觀察到了「模型崩潰」的例子，即在合成數據上訓練的人工智能模型出現了不可逆轉的缺陷，並產生了荒謬的輸出。此外，有人擔心合成數據可能會加劇數據集的偏差和錯誤。

劍橋大學博士Zakhar Shumaylov在一封電子郵件中寫道，」如果處理得當，合成數據會很有用。然而，對於如何才能處理得當，目前還沒有明確的答案；有些偏見對於人類來說可能很難察覺。」

此外，圍繞對合成數據的依賴存在一場哲學辯論，人們對人工智能的本質提出了質疑——如若使用機器合成的數據，那麽人工智能是否還是模仿人類智能的機器？

史丹福大學教授Percy Liang強調了將真正的人類智能融入數據生成過程的重要性，並強調了大規模建立合成數據的復雜性。他認為，「合成數據不是真實的數據，就像你做夢登上了珠穆朗瑪峰並不是真正登頂了一樣。」

目前對於生成合成數據的最佳做法尚未達成共識，這突出表明需要在這一領域進一步研究和發展。隨著該領域的不斷發展，人工智能研究人員和領域專家之間的合作對於充分利用人工智能開發合成數據的潛力至關重要。

（財聯社周子意）