當前位置: 華文世界 > 科技

涉17萬個視訊!輝達等巨頭被曝違規使用YouTube數據訓練模型

2024-07-17科技
科技巨頭被曝使用未經授權的YouTube內容訓練AI(人工智慧)模型。
當地時間7月16日,據外媒報道,包括蘋果、輝達、Salesforce和Anthrophic在內的一些大型科技公司,被曝在訓練AI模型時使用了來自谷歌旗下視訊網站YouTube的未授權數據。這些公司使用了一個由第三方提供的數據集,其中包含從YouTube上抓取的大量視訊字幕文本,違反了YouTube禁止從平台上未經授權抓取內容的規定。
報道指出,這些科技公司在訓練AI模型時都使用了一個名為「YouTube Subtitles(YouTube字幕)」的數據集,大小為5.7GB,包含4.89億個單詞,來自Youtube上超過4.8萬個頻道中的17.35萬個視訊。該數據集由視訊字幕的純文本組成,包括視訊博主上傳的部份和Youtube自動轉錄的文本,除了英語外,通常還附帶日語、德語和阿拉伯語等語言的轉譯。
非營利性組織EleutherAI是爭議數據集的創作者,公司尚未對此事作出回應。根據官網介紹,EleutherAI的目標是「降低AI開發的門檻,透過訓練和釋出模型,讓大家接觸到尖端的AI技術」。此前,EleutherAI釋出了名為「Pile」的數據組譯,其中的大部份數據集都是對公眾開放的,包括YouTube Subtitles。
資料顯示,在蘋果於今年4月釋出端側小模型OpenELM模型的幾周之前,公司就使用了Pile進行訓練。不過,值得註意的是,蘋果自己並沒有下載這些數據。因此,從技術層面來說,是EleutherAI違反了YouTube的使用條款。
AI初創公司Anthropic的一位發言人證實,Pile數據集已被用於訓練公司的生成式AI助手Claude,而YouTube的相關條款僅涉及「直接使用其平台」,建議與Pile的原作者討論任何違反YouTube服務條款的行為。蘋果、輝達、Salesforce等其他公司尚未對此事作出回應。
此次事件影響到的創作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主,以及【紐約時報】、英國廣播公司(BBC)和美國ABC News等大型新聞出版商。另外,數據集中的一些材料宣傳了「地平說」等陰謀論,甚至還包含了已被刪除的視訊的內容。現在,Pile已從官方下載網站上下架,但仍可透過檔共享服務存取。
對此,知名科技博主Marques Brownlee在X(原推特)平台上表示:「蘋果從幾家公司獲取了他們AI所需的數據,其中一家從YouTube視訊中抓取了大量數據/轉錄文本,包括我的視訊。從技術上來說蘋果沒有‘犯錯’,他們沒有主動抓取數據。但這將是一個長期存在的問題。」
Marques Brownlee的推文。來源:X平台
雖然蘋果和其他公司或許是使用了公開的數據集,並沒有違規行為,但此次事件讓人們又一次關註到AI訓練背後的數據問題。今年年初,YouTube的母公司谷歌被曝利用該平台的視訊來訓練旗下模型,谷歌當時回應稱,這種行為沒有違反平台與創作者的協定。
今年3月,OpenAI技術長公尺拉·穆拉蒂(Mira Murati)在接受采訪時還曾對文生視訊模型Sora的訓練數據來源含糊其詞。4月,YouTube執行長尼爾·莫漢(Neal Mohan)在采訪中表示,他並沒有直接證據能夠證明OpenAI確實使用了YouTube的視訊來完善其文生視訊AI工具Sora,如果真的使用了,那就「明顯違反」了YouTube平台的使用條款。
澎湃新聞記者 胡含嫣
(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)