涉17萬個視訊！輝達等巨頭被曝違規使用YouTube數據訓練模型

2024-07-17科技

科技巨頭被曝使用未經授權的YouTube內容訓練AI（人工智慧）模型。

當地時間7月16日，據外媒報道，包括蘋果、輝達、Salesforce和Anthrophic在內的一些大型科技公司，被曝在訓練AI模型時使用了來自谷歌旗下視訊網站YouTube的未授權數據。這些公司使用了一個由第三方提供的數據集，其中包含從YouTube上抓取的大量視訊字幕文本，違反了YouTube禁止從平台上未經授權抓取內容的規定。

報道指出，這些科技公司在訓練AI模型時都使用了一個名為「YouTube Subtitles（YouTube字幕）」的數據集，大小為5.7GB，包含4.89億個單詞，來自Youtube上超過4.8萬個頻道中的17.35萬個視訊。該數據集由視訊字幕的純文本組成，包括視訊博主上傳的部份和Youtube自動轉錄的文本，除了英語外，通常還附帶日語、德語和阿拉伯語等語言的轉譯。

非營利性組織EleutherAI是爭議數據集的創作者，公司尚未對此事作出回應。根據官網介紹，EleutherAI的目標是「降低AI開發的門檻，透過訓練和釋出模型，讓大家接觸到尖端的AI技術」。此前，EleutherAI釋出了名為「Pile」的數據組譯，其中的大部份數據集都是對公眾開放的，包括YouTube Subtitles。

資料顯示，在蘋果於今年4月釋出端側小模型OpenELM模型的幾周之前，公司就使用了Pile進行訓練。不過，值得註意的是，蘋果自己並沒有下載這些數據。因此，從技術層面來說，是EleutherAI違反了YouTube的使用條款。

AI初創公司Anthropic的一位發言人證實，Pile數據集已被用於訓練公司的生成式AI助手Claude，而YouTube的相關條款僅涉及「直接使用其平台」，建議與Pile的原作者討論任何違反YouTube服務條款的行為。蘋果、輝達、Salesforce等其他公司尚未對此事作出回應。

此次事件影響到的創作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主，以及【紐約時報】、英國廣播公司（BBC）和美國ABC News等大型新聞出版商。另外，數據集中的一些材料宣傳了「地平說」等陰謀論，甚至還包含了已被刪除的視訊的內容。現在，Pile已從官方下載網站上下架，但仍可透過檔共享服務存取。

對此，知名科技博主Marques Brownlee在X（原推特）平台上表示：「蘋果從幾家公司獲取了他們AI所需的數據，其中一家從YouTube視訊中抓取了大量數據/轉錄文本，包括我的視訊。從技術上來說蘋果沒有‘犯錯’，他們沒有主動抓取數據。但這將是一個長期存在的問題。」

Marques Brownlee的推文。來源：X平台

雖然蘋果和其他公司或許是使用了公開的數據集，並沒有違規行為，但此次事件讓人們又一次關註到AI訓練背後的數據問題。今年年初，YouTube的母公司谷歌被曝利用該平台的視訊來訓練旗下模型，谷歌當時回應稱，這種行為沒有違反平台與創作者的協定。

今年3月，OpenAI技術長公尺拉·穆拉蒂（Mira Murati）在接受采訪時還曾對文生視訊模型Sora的訓練數據來源含糊其詞。4月，YouTube執行長尼爾·莫漢（Neal Mohan）在采訪中表示，他並沒有直接證據能夠證明OpenAI確實使用了YouTube的視訊來完善其文生視訊AI工具Sora，如果真的使用了，那就「明顯違反」了YouTube平台的使用條款。

澎湃新聞記者胡含嫣

(本文來自澎湃新聞，更多原創資訊請下載「澎湃新聞」APP)